Korpus

Co je to korpus (anglicky corpus) a k čemu je dobrý? Jeden z významu slova korpus – ten který nás primárně zajímá – je soubor. Korpus v kontextu nějakého jazyka (např. angličtiny) je tedy soubor textů uložený v počítačové podobě, takové, která umožňuje jeho snadné prohledávání a zpracovávání.

Většina velkých institucí a organizací zabyvající se výzkumem jazyka má vlastní korpus. V něm pak shromažďuje velké množství textů v daném jazyce posbíraného z knih, časopisů, zpráv, reklam, dopisů ale také třeba i z mluvených dialogů pro zachycení mluvené varianty jazyka. Takový korpus pak obsahuje texty z různých časových období a zachycuje tak i vývoj jazyka samotného. Korpus může být zaměřený na určitou variantu jazyka (americká, irská angličtina apod.) nebo být mezinárodní.

Co nám může takový korpus nabídnout? Můžeme zjistit, která slova se používaly v minulosti, která se používají dnes, která jsou častější v mluvené formě jazyka a další věci. Díky opravdu hlubokého pohledu do samotného jazyka  se korpusy běžně používají při přípravě učebnic. Jednak se do učebnic můžou zařadit ukázkové věty, které se skutečně používají a jednak je použití korpusu jakousi zárukou pravdivosti informací v nich obsažených.

Velké korpusy anglického jazyka obsahují několik stovek miliónů anglických slov. Mezi nejznámější korpusy anglického jazyka můžeme zařadit např. Oxford English Corpus, Cambridge International Corpus,  British National Corpus a další. Bohužel ne do všech korpusů má běžný člověk přístup. Např. přístup do Cambridge International Corpus mají pouze autoři knih Cambridge University Press a další vyvolení.



Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *