Isz siveöl tégaz hazuj

avagy

Mit tud a nyelvstatisztika?

A statisztika és a nyelvtudomány határán található tudományág alapjaival ismertet meg bennünket ez az írás. A Statisztika tanítása közben e területről is vehetünk példákat.

Rövid történet

A nyelvstatisztika nem tekinthető a nyelvtudomány önálló ágának, de eredményei sok területen hasznosíthatók. Ezen alkalmazások azután ösztönzően visszahatnak a nyelvstatisztika fejlődésére.

Az írógép billentyűzetének vagy a nyomdai szedőgép betűállományának megtervezésében fontos szerepet játszottak az első fonéma- és betűstatisztikák. A gyorsírás kifejlesztésénél (amelyben a szótagoknak, szavaknak van külön jelük) szükséges volt arra, hogy tudjuk, mik a leggyakoribb szótagok, hangkapcsolatok. A Morse-abc is alkalmazza a statisztikát: az 'e' betű az angolban gyakori, ezért a jele rövid, egyszerű: '.'; a ritkább betűk kódjelei hosszabbak, bonyolultabbak. A nyelv esztétikájának, zeneiségének, ritmikájának vizsgálatánál is hasznosíthatók a szó-, szótag-, hangkapcsolat-statisztikák.

Elsősorban a nyelvtanulásban és a távközlésben alkalmazzák a gyakorisági szótárakat. Az egyik első legjelentősebb gyakorisági szótár Berlinben jelent meg 1898-ban. 1320 szakember ötévi munkája, mintegy 11 millió német szót tartalmaz. Ezt követték a világ nagy nyelveinek gyakorisági szótárai, a francia 1929-ben, az angol 1930-ban és 1940-ben.
Az informatika megszületése és a számítógép megjelenése új lendületet adott a munkának. A számítógépre jellemző, hogy gyorsan, pontosan dolgozik, mentesíti az embert a monoton munkától. Az első teljesen számítógéppel feldolgozott anyag a félmillió szót felölelő spanyol gyakorisági szótár volt 1964-ben. (A leggyakoribb szavak egészen prózai módon: a, az, egy, és, hogy, de...)

Simonyi Zsigmond emléktáblája
Simonyi Zsigmond emléktáblája
Alkalmazzák a nyelvstatisztikát a nyelvészet más területein is, a nyelvtörténetben, a nyelvrokonság kérdéseiben (Rokonaink-e a finnek?), a nyelvjáráskutatásban, a nyelvtipológiában, ismeretlen nyelvek, titkosírások megfejtésében.
Gyökerei visszavezethetők a talmudisták, ill. az alexandriai grammatikusok korára. Ezek Biblia-, ill. Homérosz-konkordanciái képviselték az első nyelvstatisztikai munkálatokat. A múlt század közepén Marbe egyik műve után, amely Geothe és Heine útleírásait hasonlítja össze, sok nyelvész igyekezett a nyelvi jelenségeket statisztikai adatokkal alátámasztani.

Magyar vonatkozásban elsőként Simonyi Zsigmondot (1895) lehet megemlíteni. Ő az 'íra' alak előfordulását vette számba, hasonlította össze Vörösmartynál és Aranynál, s ezzel támasztotta alá, hogy ez az alak kiveszőben van - és azóta valóban ki is veszett.
Később ugyanő a magyar írógépbillentyűzet kialakításával kapcsolatban foglalkozik a betűk és hangok előfordulási arányaival (1896). Mikes Ferenc (1935), ill. Tarnóczi Tamás (1942) több tízezer szó figyelembe vételével megállapították, hogy az 'e' és az 'a' hangok előfordulási aránya magas a magyarban:

Mikes 26.77% 22.34%
Tarnóczy 25% 23.6 %

Ezeket az eredményeket hasznosíthatjuk nem utolsósorban a nyelvi játékokban is. (Ezek közül nemrégiben - avagy régebben? a televíziónézés ilyen magas népszerűsége óta másképpen érezzük múlni az időt - a Szerencsekerék volt a legismertebb.)