Jazykový korpus

Jazykovým korpusem rozumíme zpravidla rozsáhlý soubor textů, které jsou opatřeny (metajazykovými) značkami, jež vypovídají o samotném textu (jméno autora, vydání, rok atp.). Dále může jazykový korpus obsahovat frekvenci výskytu jednotlivých slov nebo zařazení slov do jednotlivých kategorií slovních druhů. Současná podoba jazykových korpusů je digitální, tedy ve formě nejrůznějších programů a aplikací, které umožňují vyhledávání slov, slovních spojení, zjištění frekvence výskytu slov, počet slov (znaků, odstavců, řádků) i zjištění původního zdroje textu. Digitalizace velmi usnadňuje sběr dat, jejich zpracování a uchovávání. Jazykové korpusy jsou rozdělovány na synchronní a diachronní. Synchronní korpusy jsou velmi vyvážené otisky jazyka v krátkém období. Diachronní zachycují jazyk v jeho různých vývojových fázích. Korpusy nejčastěji slouží ke zpracování jednojazyčných výkladových či vícejazyčných překladových slovníků.