Cs. Nagy Lajos: A számítógép a nyelvjáráskutatásban

1. A kezdetekről.

1.1. Az európai nyelvtudományban, így a nyelvjáráskutatásban is már több évtizedes, csaknem fél évszázados hagyomány a számítógépes eljárások alkalmazása. Jean Séguy francia romanista nyelvész, a dialektometria (nyelvjárásmérés, nyelvjárásiasságmérés) megalapítója 1971-ben nyelvatlaszadatok számítógépes elemzésével kísérelte meg a nyelvjárásiasság fokának a megállapítását, a nyelvjárások osztályozását (vö. Balogh–Kiss 1992, 6. p.). A dialektometria számszerűsítve írja le nyelvi jelenségek, szövegek regionalitásának, nyelvjárásiasságának a mértékét. Eddig leginkább fonéma-előfordulási különbségek mértékének a megállapítására alkalmazták ezt a módszert. A mérés úgy történik, hogy ugyanazon szöveg nyelvjárási (regionális) és standard változatában számszerűsítik, hány helyzetben fordulnak elő azonos és eltérő fonémák (vö. Juhász 2001, 137–138. p.). Gyakorlatilag a nyelvjárási szöveget (alapszöveget) átírják standard változatba, s redukciós és azonossági indexszel fejezik ki a különbségeket. Pl. a keleti középpalóc nyelvjárásban jellemző volt, hogy a köznyelvi é helyén e-t vagy ē-t ejtettek: szekér > szeker ~ szekēr. A mérés kiindulási alapja (alapszövege) a nyelvjárási alak (szeker ~ szekēr), s ennek köznyelviesített változata (szekér). Azonos számú fonéma (5) van mindkét alakban, ezért a redukciós index 100%, az azonossági viszont csak 80%, mert egy fonéma eltérést mutat. Vizsgáljunk meg más eseteket is. A nyj. hazúrú és a kny. hazulról esetében a nyelvjárási változat 6, a köznyelvi pedig 8 fonémát tartalmaz. A redukciós index 6/8 = 75%, az azonossági index pedig – mivel 2 l fonéma hiánya + az u helyett ú + az ó helyett ú = 4 fonémaeltérés van – 50%. A nyj. körtve és a kny. körte redukciós indexe 6/5 = 120%, azonossági indexe pedig az 1 fonématöbblet következtében ugyancsak 6/5 = 120%. Ebből az látszik, hogy nem elegendő, sőt értelmetlen 1-1 szó kiemelése és összehasonlítása. Csak hosszabb szövegek elemzésével kapunk megbízható eredményt. Balogh Lajos Kovács Margit keramikusművész nyelvi regionalitását a művésznő 10 percnyi szövegén vizsgálva a következőket állapította meg: „Kovács Margit köznyelvire rekonstruált szövege 8128 beszédhangot tartalmaz. Ebből 751 esetben volt valamiféle eltérés a tényleges, regionális köznyelvivel való összevetés során: vagy hangcsere, vagy pedig hangkiesés. Az azonossági index 90,76%, amely azt jelenti, hogy a köznyelvi szöveg beszédhangjainak 90,76%-a változás nélkül azonos a regionális köznyelvi szövegével” (Balogh 1982, 479. p.). A redukciós index – mivel 128-cal kevesebb beszédhangot használt föl, mint amennyit a köznyelvi norma szerint kellett volna – 8000/8128 = 98,43% (vö. Balogh uo.) Termé­sze­tesen a nyelvjárásiassági vizsgálatot alaktani és egyéb jelenségekre is kiterjeszthetjük. Az alacsony értékű indexek a nyelvjárásiasság nagyobb mértékét fejezik ki. Ha körültekintő a vizsgálandó nyelvjárási jelenségek kiválasztásának a köre, akkor a dialektometria segítségével pontosabban megállapíthatók a nyelvjárástípusok határai, valamint a nyelvjárások közti átmeneti sávok területei is. A nagy adatbázisokra épülő gépi feldolgozás lehetőséget ad a jelenséghatároknak az eddiginél pontosabb megrajzolására.
A magyar nyelvtudomány különböző területein is egyre gyakrabban találkozunk informatikai megoldásokkal, számítógépes adatrögzítésekkel és feldolgozásokkal. A magyar nyelvjárások atlaszának (továbbiakban MNyA.) a számítógépre vitele az 1960-as évek közepén vetődött föl először Kelemen József részéről. „Én magam [= Balogh Lajos] is többször beszélgettem vele erről a kérdésről, azokról az előnyökről, amelyek a gépi elemzésből adódnak. Az akkori kezdetleges technika – egy fél szobányi gép, amely lyukszalagra dolgozott – azonban megkérdőjelezte ennek a vállalkozásnak a komolyságát, illetőleg azt, hogy a sok munkát igénylő befektetés hosszú távon is hasznosíthatóvá, gyümölcsözővé válik” – emlékezik vissza Balogh Lajos (Balogh–Kiss 1992, 6. p.), aki tudomásom szerint a MNyA. egyetlen ma is élő munkatársa.1 A magyar nyelvjárások első számítógépes elkülönítése Simon Zoltán nevéhez fűződik, aki Vancouverben számítógépes elemzéssel hasonlított össze a nagyatlaszból kiválasztott 100 ősi magyar szót. 395 kutatópont ejtésváltozatait egybevetve 38 nyelvjárási egységet állapított meg (vö. Hankó 1990). Ez lényegében megegyezik Imre Samunak ugyancsak a nagyatlasz anyaga alapján kézi feldolgozással kialakított főbb típusaival (Imre 1971, 329–373. p.).
A 80-as évek végén, a számítástechnika rohamos fejlődésének következtében belátható távolságba került a nagyatlasz teljes anyagának gépi adatbevitele. Kiss Gábor az atlasz számítógépbe vitelének a hasznosságát több tényezővel indokolta. Az atlasz 6 kötete 48,5 kg tömegű, ezért fizikailag szinte kezelhetetlen különösen akkor, ha egy adott kutatópont adatait szeretnénk elemezni, ugyanis minden kötetet (dobozt) kézbe kell venni. Az atlasznak ebből a tulajdonságából következik az, hogy a magyar tudomány (nyelvtudomány, néprajz, helytörténet stb.) vérkeringésébe alig került be. Számítástechnikai szempontból az adatbázis jól strukturált, viszonylag könnyen készíthető program a feldolgozásához. Az adattár újabb kutatópontok adataival is kiegészíthető. Az adatok kézi csoportosítása, összeszámlálása, összehasonlítása hosszadalmas. A számítógép alkalmazásával (új, csak géppel megvalósítható) elemzési szempontok érvényesítésével újabb tudományos eredményekhez jut a nyelvtudomány (vö. Balogh–Kiss 1992, 11–12. p.). A nagyatlasz mellékjeles karakterkészletét kiadáskor a nyomda egyedileg alakította ki. A betűk fölött és alatt is gyakran előfordulnak olyan mellékjelek a fonetikai jelenségek jelölésére, amelyek a számítógépen akkor még nem voltak meg. Ezért az egyes mellékjelekhez számokat rendeltek (az alapjel után kitett 3-as például a félhosszúságot jelentette), vagy a számítógépen egyébként meglévő, nem fonémákat jelölő egyéb szimbólumokat használtak (a diftongusok kapcsos zárójelbe kerültek). Így készítette el Balogh Lajos és Kiss Gábor a MNyA. 1–3. kötetének informatizált változatát. Módszerük elméletileg teljes értékű, gyakorlatilag azonban az adatrögzítés során alkalmazott különböző platformok kompatibilitási nehézségeket okoztak (vö. Bodó–Vargha 2008, 336. p.).

1. ábra. Az MNyA. digitalizálási folyamatának lépései
3-abr-1

Forrás: Balogh–Kiss 1992, 13. p.

1.2. Az elmúlt két évtizedben a számítógép magyar dialektológiai alkalmazását több tényező is motiválta. Az 1990-es években az informatika és technikai háttere olyan gyorsan fejlődött, hogy az alkalmazások lehetősége meghatványozódott. A nyelvtudomány különböző ágaiban egyre elterjedtebbé váltak az informatikai megoldások. Nemzetközi dialektológiai kongresszusokon már külön szekció foglalkozott a számítógépes adatfeldolgozással, s már szoftverbemutatókat is tartottak.2 Kiefer Ferenc az informatikai forradalom nyelvi hatásairól megállapítja: „Ez a változás a könyvnyomtatás felfedezésénél is komolyabb következményekkel jár. Az Európai Közösség szakembereinek véleménye szerint az új nyelvi technológiák olyan hatással lesznek a kultúra fejlődésére, mint amilyen szerepet játszott az írásbeliség a kultúra megőrzésében és terjesztésében. Jelentőségük a könyvnyomtatásénál is nagyobb” (Kiefer 1994, 635. p.). Motiváló tényezőként szerepelt az is, hogy a Nyelvtudományi Intézetben, a Zenetudo­mányi Intézetben, Néprajzi Múzeumban, valamint egyetemi és főiskolai tanszékeken, sőt nyelvjáráskutatók, néprajzosok birtokában is rengeteg archiválandó nyelvjárási írott és hangos anyag található. Ezeknek az összegyűjtése, technikai megmentése, egyetlen hatalmas adattárba rendezése a tudományos kutatás számára elengedhetetlen. Ezt a munkát a korábbi, manufakturális módszerrel nem lehet elvégezni. Főszereplővé vált tehát a számítógép, melynek fejlettségi foka már lehetővé tette ezeknek a kezdeményezéseknek a megvalósítását.
1996-ban az ELTE Magyar Nyelvtörténeti és Nyelvjárástani Tanszéke és a Fonetikai Tanszéke a fenti cél érdekében összefogott, és kidolgozott egy elektronikus prezentációs rendszert. Juhász Dezső témavezetőként főként a dialektológiai szempontok érvényesülését biztosította, Vékás Domokos a fonetikai szempontok megvalósításával, valamint nemzetközi példák alapján az informatizálási koncepció kialakításával foglalkozott. Radványi Péter a számítógépes nyelvi archívum kialakítása és a hanganyagok digitalizálása mellett technikai feladatok megoldását vállalta magára (vö. Juhász–Radványi–Vékás 2000, 48–49. p.).
Ismerkedjünk meg legalább nagy vonalakban az elektronikus prezentációs rendszer tervével, melynek nagyon sok eleme napjainkra már valósággá vált. A munka első fázisa a digitális archívum feltöltése, vagyis a hagyományos adathordozókon lévő adattárak bevitele a számítógépbe. Hagyományos adathordozók (primer adattárak) a papír alapú, vagyis nyomtatott vagy kéziratos szöveglejegyzések, szó- és szólásgyűjtemények, tájszótárak, nyelvatlaszok, nyelvtanok, néprajzi és honismereti közlemények, illetve magnó-, esetleg videoszalagra fölvett nyelvjárási, néprajzi gyűjtések. Az ezekből a forrásokból nyert adatokat digitalizálják, technikailag tagolják, kialakítják az ún. nyersanyagtárat. Az anyagokat fonetikailag, nyelvföldrajzilag, lexikailag, grammatikailag, statisztikailag és bibliográfiailag kódolják is. A folyamat következő lépésében tartalmi válogatás, hangfinomítás, zajszűrés, restaurálás, válogatás, rendezés, utalózás és a tárolás megoldása történik. A tárolás CD lemezen, újabban nagyobb kapacitású tárolókon vagy nyomtatásban (nyelvatlasz, szótár stb.) történik. A digitális archívumra operatív rendszerek épülnek, melyekkel lehetővé válnak fonetikai, fonológiai, lexikai, grammatikai stb. keresések a teljes korpuszban. Külön­böző statisztikák készíthetők, egyedi és összesítő térképlapok szerkeszthetők nyelvjárási jelenségek bemutatására, hogy csak néhány lehetőséget említsünk az alkalmazási területekből. A program kidolgozói vallják, hogy „remélhetőleg nincs messze az az idő, amikor a nyelvész saját kezűleg színvonalas szemléltető térképeket készíthet, neki tetsző grafikai megoldásokkal, azaz szakmai elképzelését közvetlenül megvalósíthatja és tesztelheti” (Juhász–Radványi–Vékás 2000, 48–49. p.).

2a. ábra. A digitalizálás folyamata
3-abr-2a

Forrás: Juhász–Radványi–Vékás 2000, 52–53. p.

A következő ábra azt szemlélteti, hogyan lesz a hangfelvételekből nyelvileg és tartalmilag jól tagolható informatikai anyag.

2b. ábra. A dialektológiai archívum hangfájlkezelésének technikai blokksémája

Forrás: Juhász–Radványi–Vékás 2000, 54. p.
2. Digitalizált nyelvatlaszok.

2.1. Az első digitalizált nyelvatlasz. A fent vázolt elméleti alapokra épülve indult meg a digitalizált atlaszok kiadása. Elsőként 1995-ben Juhász Dezső irányítása mellett a 11 kötetes A romániai magyar nyelvjárások atlaszának (RMNyA.) a közzétételét kezdte el az ELTE Magyar Nyelvtörténeti és Nyelvjárástani Tanszékének néhány fiatal oktatója hallgatók közreműködésével. Az utolsó kötet 2010-ben látott napvilágot. Ez azt jelenti, hogy a számítógépes technika dialektológiai alkalmazásának kidolgozása és kipróbálása már a 90-es években elkezdődött. A munkacsoport minden mellékjeles betűt megtervezett, kódszámmal látott el. Mellettük több tagoló és szemléltető funkciójú grafikai jelet is készített, majd az adatrögzítés programját egy szövegszerkesztős programból alakította ki. Ezen lépések következtében váltak a térképek egyformává, esztétikailag is magasabb szintűvé, az adatok jól olvashatóvá. A korrektúrázást pedig nem a kész térképlapokon, hanem az adattárban lehetett elvégezni. Ezt követően a javított adattár került a térképezőhöz.
A számítógép használatának a lehetőségét az atlasz teljes anyaga gyűjtőjének, Murádin Lászlónak a gondos előszerkesztő munkája teremtette meg. A RMNyA. történetének az első fontos dátuma 1955, akkor ugyanis a Román Tudományos Akadémia Kolozsvári Nyelvtudományi Intézete fölvette kutatási tervébe e nyelvatlasz elkészítését. Nagy szerepe volt ebben a nemzeti elfogultságtól mentes akkori igazgatónak, Emil Petrovicinak. A gyűjtés előkészítő munkálatai (a kérdőfüzet összeállítása, a kutatópontok kijelölése) 1956-ban kezdődött. A munka vezetésével Szabó T. Attilát bízták meg, s két főállású kutatót, Gazda Ferencet és Nagy Jenőt kérték föl munkatársnak. A kezdeti lendület azonban hamar megtorpant, mert 1957-ben Gazda Ferencet, 1959 elején pedig Nagy Jenőt politikai okokból eltávolították az intézetből, majd később Szabó T. Attila intézeti állását is megszüntették. 1957 végén Gazda Ferenc helyére Murádin Lászlót nevezték ki, s Nagy Jenővel kettesben folytatták a munkát, igaz, csupán egy évig. 1959-től Murádin László egyedül végezte mindazt a munkát, amelyet korábban egy egész munkacsoport számára terveztek. A terepmunka egy évtizeden keresztül, 1957-től 1967-ig tartott: 136 kutatóponton 3379 kérdést tartalmazó kérdőív kikérdezése, lejegyzése. Murádin László elkezdte szerkeszteni A romániai magyar nyelvjárások nyelvföldrajzi adattárát. Köznyelvi címszók alá sorolta be az adatokat, külön bekezdésekbe szerkesztette a morfémaváltozatokat, jelölte előfordulási helyüket. A 80-as évek végére készült el a teljes anyag, mely mintegy 2000 oldalt tesz ki. Ez az adattár lett az alapja az első digitális nyelvatlasznak (vö. Murádin 1995, 5–8. p.).
A 11 kötet összesen 3297 szóföldrajzi térképet tartalmaz. Minden kötetben közli a szerkesztő a térképre nem került szócikkek listáját, melyekben a címszóhoz tartozó adatok kutatópontonkénti fölsorolása kapott helyet.
A következő szóföldrajzi térképrészleten a zöldpaprika megnevezéseit láthatjuk. A székelyföldi kutatópontokon előforduló ardé és alakváltozatai a román nyelvi hatást tükrözik.
3. ábra. Zöldpaprika (részlet)3-abr-2b
3-abr-3

Forrás: RMNyA., 287. p.

2.2. Az első digitalizált regionális nyelvatlasz. A nyelvterületet reprezentatív módon bemutató nagyatlaszok (MNyA., RMNyA.) mellett szükség van kisebb tájegységek minden lakott településére kiterjedő ún. regionális nyelvatlaszokra is. A nagyatlaszok átfogó képet adnak a nyelvjárásokról, de a jelenséghatárok pontos megrajzolását csak az ún. regionális nyelvatlaszok alapján tudjuk elvégezni. A két nyelvatlasztípus szervesen kiegészíti egymást.
A Szilágysági nyelvatlasz (SzilNyA.) ugyancsak a kolozsvári nyelvjáráskutató műhelyhez kötődik. A Szilágyságból származó Márton Gyula 67 szilágysági településen összesen 164, az idősebb nemzedékből választott adatközlőtől gyűjtött. Az anyaggyűjtést azzal a kérdőívvel (szójegyzékkel) végezte, amellyel a többi készülő regionális atlasz anyagát is gyűjtötték, pl. a közzétételre váró Csíki, Gyergyói, Háromszéki stb. nyelvatlaszokat. A kérdőfüzet több mint 900 címszót tartalmaz, melynek fele hangtani, a további része pedig az alaktani jelenségek és a szókincs között oszlik meg arányosan. A gyűjtést 1975-ben fejezte be, sajnos azonban az atlasszá szerkesztést és a kiadást 1976-ban bekövetkezett halála megakadályozta. A hagyaték Magyarországra kerülése után, 1993-ban kezdődtek meg a közzététel munkálatai. A kézirat összeállítását és szerkesztését Hegedűs Attila végezte. A romániai magyar nyelvjárások atlaszának a karakterkészletével és lényegében azonos digitalizálási technikával készült el ez az atlasz. A Magyar Nyelvtudományi Társaság és a Pázmány Péter Katolikus Egyetem közös kiadványaként jelent meg 2000-ben.
Az alábbi térképről megállapítható, hogy viszonylag kis területen mennyire gazdag a harkály fogalmának megnevezési rendszere.

4. ábra. Harkály
3-abr-4

Forrás: SzilNyA., 173. térképlap

3. Informatizálás. „Az informatizált adatok előnye, hogy integrálhatók (vagyis a különböző atlaszok és szótárak egyesíthetők), és hogy viszonylag könnyen konvertálhatók a gyorsan változó informatikai platformok között, amire néhány évenként szükség is lehet. Amikor az egységes európai hangzó atlasz összeáll az egyes nyelvek különböző területi változatait dokumentáló beszélt nyelvi korpuszokból, csakis a megfelelően informatizált, tehát integrálható nyelvjárási anyagokkal járulhatunk hozzá e közös vállalkozáshoz is” – hangsúlyozza az informatizálás tudományos jelentőségét Vékás Domokos a BihalBocs honlapján (http://www.bihalbocs.hu/utmutatok.html. Letöltve: 2013. július 24.)
3.1. Geolingvisztikai Műhely. Juhász Dezső A romániai magyar nyelvjárások atlasza utolsó, 11. kötetének előszavában 2010-ben szól arról, hogy elektronikus adatbázisukat komplex multimédiás dialektológiai rendszerbe integrálják a BihalBocs néven készült számítógépes program segítségével.
„A BihalBocs3 egy nyelvészeti és problémamegoldási szemlélet, illetve az ezen a szemléleten alapuló szoftver. Vékás Domokos 1996-ban kezdte meg egy ilyen, speciális számítógépes program fejlesztését, amely hatékonyan teszi lehetővé nyelvjárási anyagok rögzítését (kódolását), tárolását és felhasználását” (http://geolingua.elte.hu/ bihalbocs/bb_hu.html. Letöltve: 2013. július 24.).
A BihalBocs egyik fontosabb tulajdonsága az, hogy támogatja a magyar egyezményes hangjelölést, lehetővé teszi a lejegyzés és a hanganyag szinkronizálását, a kutatói igényeknek megfelelően továbbfejleszthető, igen bonyolult és összetett feladatok megoldására is alkalmas, oktatási változatok készíthetők vele. A vele készült hangoskönyvek, térképek viszont átalakíthatók olyan platformfüggetlen változatba, amely a PC-ken is megnyithatóvá (láthatóvá és hallhatóvá) teszi a nyelvjárási anyagokat (vö. http://geolingua.elte.hu/bihalbocs/bb_hu.html). A Geolingvisztikai Műhely honlapján található informatizált nyelvjárási adattárak, térképek és hangoskönyvek mind ezzel a szoftverrel készültek. (Sok tanulsággal jár a honlap megtekintése azok számára is, akik nem dialektológiával foglalkoznak.)
A következő ábrán láthatjuk a BihalBocs szoftver legfontosabb alkalmazási lehetőségeit. Az utolsó (stb.) az adatok legkülönfélébb nyelvészeti megszólaltatását teszi lehetővé. Pl. korpuszegyesítések, azok alapján fonetikai, lexikológiai statisztikák készítése, jelenséghatárok megállapítása, fogalmak megnevezési rendszerének vizsgálata, újabban pedig jelentésföldrajzi kutatások végzése.

3-abr-5
Forrás: http://www.bihalbocs.hu/utmutatok.html

3.2. Jelentésföldrajzi kutatás. A szóföldrajzi vizsgálatban azt keressük, hogy egy adott fogalmat – pl. köldök – a különböző tájegységeken hogyan neveznek meg. Arra a kérdésre, hogy: „Mi a neve ennek a kis gödörnek az ember hasa közepén?” (MNyA. 503. köldök; RMNyA. 1213. köldök) a következő válaszokat kapták a gyűjtők: köldök, pűdök, tűdök / púp, burik. (Az üres karika mellől hiányzik a pupëk megnevezés.) Ezt szemlélteti a következő térkép.

6. ábra. Köldök
3-abr-6

Forrás: Geolingvisztikai Műhely honlapja

A jelentésföldrajzi vizsgálat alapkérdése, hogy az illető lexémával a környező világ mely elemét, illetve elemeit nevezi meg egy beszélőközösség. A köldök lexémával jelölt valóságelemek területi megoszlását mutatjuk be a következő térképlapon.

7. ábra. A köldök jelentéstartománya
3-abr-7

Forrás: Saját szerkesztésű térkép a BihalBocs jelentésföldrajzi programjával

A térképről leolvasható, hogy a köldök lexéma a nyelvterület nagy részén az ’ember hasa közepén levő kis gödör’, ’testrész’, északon, északkeleten ’ekefej’, Erdélyben ’köldök (a tekerőlevélen)’ [a fonálgombolyítónak az a része, amely körül a tekerőlevél forog], egy kutatóponton pedig ’pánt’ jelentésű. Itt jegyzem meg, ha nemcsak az atlaszokban keresünk, hanem megtörténhetne legalább az Új magyar tájszótár (ÚMTsz.) teljes anyagának az informatizált korpuszba illesztése, akkor az előbbi valóságelemeken kívül másokat is fölvehetnénk: ’dinnye része’, ’a kenyér közepén ujjal nyomott bemélyedés’, ’a szalmakalap tetejének középső kis része’, ’az ing elejét lezáró kis téglalap alakú rész’, ’fazekaskemence tetején lévő kis nyílás’. A fenti jelentésföldrajzi térképet a MNyA. 451–1162. térképlap, a RMNyA. V–VIII. kötet, a Székely nyelvföldrajzi szótár (SzNySz.), a Moldvai csángó nyelvatlasz (MCsNyA.) I–III. kötet és a Medvesalja magyar nyelvjárási atlasza (MedvA.) egyesített adattárának összesen 1 006 574 nyelvi adata alapján készítettem (vö. Cs. Nagy 2007, 63–68. p., 2013, 153–163. p.).
Ezen a kutatási területen elengedhetetlen a nyelvatlaszoknak legalább a lexikai szómutatóját elkészíteni, bevinni az adattárba, mert másképp csak ötletszerű lehet még mindig azon lexémák kiválasztása, amelyek jelentéseinek a területi megoszlását valóban érdemes vizsgálni. Megjegyzendő, hogy eddig csak a nagyatlaszhoz és a medves­alji atlaszhoz készült mutató.
3.3. Az első informatizált nyelvatlasz. A Medvesalja magyar nyelvjárási atlasza (MedvA.) anyagának a gyűjtése Cs. Nagy Lajos vezetésével, családtagok és nyitrai hallgatók közreműködésével 1993-ban kezdődött Medvesalja és közvetlen környéke 12 felvidéki településén. Az 1204 tételből álló kérdőfüzet a MNyA. kérdései közül az alaktani és a lexikai jellegű kérdéseket tartalmazza, valamint a teljes palóc kérdőívet (vö. Balogh–Pelle 1972). A további adatgyűjtést, amit az OTKA 60379. számú pályázatának támogatásával végeztünk, szélesebb néprajzi tájékozódás előzte meg. A vidék táplálkozási, építészeti és népi szokásait leíró munkákból, valamint Sándor Anna Nyitra-vidéki magyar nyelvjárások atlasza (NyvA.) néhány címszavából (Sándor 2004) újabb kérdőív készült. Az összes (1305) kérdés megoszlása a következő: MNyA.-kérdés: 978 (617 lexikai, 356 morfológiai és 5 fonetikai), Palóc kérdőív: 200 (65 lexikai, 44 morfológiai és 91 fonetikai), pótgyűjtés 120 (120 lexikai), NyvA. 7 (7 lexikai). A hangfelvételes kérdőíves gyűjtés mellett több szövegfelvételt is készítettünk. A teljes anyagból 750 címszót választottunk ki, melyeknek adataiból a BihalBocs szoftver segítségével adatbázist építettünk. Ezt követően az adatokból térképeket generáltunk: 675 (90%) lexikai, 69 (9,2%) morfológiai és 6 (0,8%) fonetikai térképlapot, s ez jelent meg 2011-ben papír változatban.
Az informatizált változat a Bihalbocs szoftver segítségével lehetővé teszi a teljes korpusz többoldalú elemzését, hangtani és egyéb statisztikák készítését, a kutatói igényeknek megfelelő új térképek generálását stb. Ezt a sajátosságot szemlélteti az atlasz 32 színes térképe.
Az első térképlap (rozsda a [gabonán]) egyszerűen, adatbeírásos módszerrel mutatja a címszóhoz tartozó adatokat (8. ábra). Ebben mint papíralapú végtermék megegyezik a korábbi hasonló típusú nyelvatlaszokkal, vagyis minden kutatópontnál az onnan származó nyelvi adatok szerepelnek. Természetesen az ilyen szóföldrajzi térkép is alkalmas az elemzésre, csak lényegesen hosszabb időre van szükség az azonos adatok kiválogatására különösen akkor, ha gazdagabb kutatópont-hálózatú lapot elemzünk. (Erre más-más szempontból jó példa a köldök fenti szó- és jelentésföldrajzi térképe.)

8. ábra. A rozsda, adatbeírásos módszerrel
3-abr-8

Forrás: A MedvA. 12. térképlapja

A második térképlap (bajusza [a kukoricáé]) ún. adatcsoportosításos megoldású (9. ábra). Az azonos fogalmi megnevezések azonos színnel jelennek meg. Ebből első látásra megállapítható, hogy területünkön melyik név a főváltozat. A bajusz(a) ~ bajúsz(a) a főváltozat, ugyanis összesen 9 településen fordul elő. Az üstök(i), a haja, a fona és a kukorica haja pedig mellékváltozatok. Az egyes megnevezések érintkezése és területisége is azonnal követhetővé válik. Ha a reprezentatív nagyatlaszok és a regionális atlaszok adatait egyesítjük, akkor természetesen nagyobb összefüggések is föltárhatók, jelenségtérképek generálhatók az adatbázisból, majd ki is nyomtathatók.

9. ábra. A bajusza (a kukoricáé), adatcsoportosításos módszerrel
3-abr-9

Forrás: A MedvA. 46. térképlapja
3.4. Új magyar nyelvjárási atlasz (ÚMNyA.) Az MTA–ELTE Geolingvisztikai Kutató­cso­portja elhatározta, hogy elkészíti a második általános magyar nyelvatlaszt. Erről a tervről 2006-ban az élőnyelvi konferencián tájékoztatták a szakmát. Maga a gyűjtés 2008 és 2011 között folyt. Az ÚMNyA. ún. követéses nyelvatlasz. Ez azt jelenti, hogy a MNyA. meghatározott kérdéseiből 220-at kérdeztek újra 186 (100 magyarországi, 40 romániai, 26 szlovákiai, 6 szerbiai, 4-4 ausztriai, horvátországi és ukrajnai és 2 szlovéniai) kutatóponton 10-10 adatközlőtől. A korábbi kérdések mellé 15 szociolingvisztikai, 16 köszönési, 4 grammatikai, 8 szemantikai és 5 mondattani kérdést is szerkesztettek, így összesen 268 kérdésből áll a kérdőív. Az új általános atlasz egyik kutatási célja nagyobb mennyiségű szinkrón regionális nyelvi adat gyűjtése, valamint a korábbi és az újabb adatok összehasonlító vizsgálata alapján változásvizsgálatok végzése, főként a szókincs változásának pontosabb bemutatására.
A gyűjtők a szövegfelvételek mellett a kérdőíveket is hangzó formában rögzítették, ezáltal lehetőség nyílik azok további, több szempontú tudományos elemzésére.
Kutatók számára az ÚMNyA. adatbázisa az MTA–ELTE Geolingvisztikai Kutatócso­portján keresztül érhető el.
3.5. Csallóközi gyűjtés. Két fiatal nyitrai dialektológus, Menyhárt József és Presinszky Károly előbb a csallóközi, majd később az egész szlovákiai magyar nyelvjárások szóanyagát bemutató nyelvatlaszt tervezi megalkotni tanítványaiknak, a Konstantin Filozófus Egyetem Közép-európai Tanulmányok Kara magyar szakos hallgatóinak a közreműködésével. A csallóközi történeti tájszóanyag földolgozása után a teljes kutatópont-hálózatú szinkrón nyelvjárási gyűjtést 2010-ben kezdték el, melynek anyagát a BihalBocs szoftverrel adatbázisba rendezik és feldolgozzák: nyomdakész térképeket, hangoskönyveket, megszólaló atlaszt stb. hoznak létre. A kérdőív a MNyA.-ból 284 dialektológiait tartalmaz. Ehhez további 50 szociolingvisztikai kérdést is fölvettek. A gyűjtő segítésére minden lexikai kérdés mellé a kutatók odaírták a várható (vagy korábbi) alakváltozatokat is.
A szerzőpáros kolozsvári előadásában (Menyhárt–Presinszky 2011) 10 kutatópontra korlátozta kutatásainak a bemutatását, de összesen 22 csallóközi, kontrollpontként pedig mátyusföldi, valamint Komárom környéki településen folynak a gyűjtések.
A kutatás eredményeiből mutatunk be két részletet, egy kutatóponttérképet, majd pedig egy jelenségtérképet.
„A kiválasztott 10 kutatópontot a Csallóköz területi reprezentativitása miatt jelöltük ki úgy, hogy valójában 8 csallóközi falu (Egyházgelle, Bős, Csallóközkürt, Felsővámos, Csicsó, Patas, Kulcsod, Bodak) és kontrollpontként egy mátyusföldi ö-ző község (Jóka), ill. egy észak-dunai település (Vágfüzes) adataival dolgoztunk” – írták a szerzők (Menyhárt–Presinszky 2011, 4. p.).
10. ábra. Kutatóponttérkép
3-abr-10

Forrás: Menyhárt–Presinszky 2011, 4. p.

„Az á utáni asszociatív o-zás szemléltetése szó végén, képzőben a zárva címszó alapján (CsallK. – 216. sz. kérdés): zárva (41) – piros; zárv6 (10) – kék; zárv= (10) – fekete; zárvo (27) – zöld”

11. ábra. Jelenségtérkép
3-abr-11

Forrás: Menyhárt–Presinszky 2011, 6. p.

A fenti két illusztráció is bizonyítja, hogy Menyhárt Józsefnek és Presinszky Károlynak köszönhetően új lendületet kapott a szlovákiai magyar nyelvjáráskutatás, s belátható időn belül hatalmas adatbázissal és azon alapuló nyelvatlasszal gazdagodhat a magyar dialektológia.
4. A Nyitra-vidéki magyar nyelvjárások atlasza (NyvA.) Sándor Anna munkája. A szerző az 1990-es évektől hallgatóinak bevonásával 26 kutatóponton 228 kérdést tartalmazó kérdőívvel dolgozott. Közülük 188 megegyezik a MNyA. kérdéseivel, 40-nel pedig a kutatott terület jelenségeit vizsgálta. A NyvA. 228 adatbeírásos térképlapjának az elemzését is magában foglalja: fonémaállomány, fonémaváltozási tendenciák bemutatása, alaktani és szókészlettani jelenségek vizsgálata stb.
A térképek készítésének a módjára a szerző nem tér ki, de annyi bizonyos, hogy valamiféle számítógépes eljárással hozták őket létre, amit a következő másolat is valószínűvé tesz.

12. ábra. A Nyitra-vidéki magyar nyelvjárások atlasza (részlet)
3-abr-12

Forrás: Sándor Anna 2004, 148. p.

5. Többdimenziós nyelvatlasz. A többdimenziós (polisztratikus) dialektológia arra a kérdésre keresi a választ, hogyan lehet a területi alapú és az abban is megmutatkozó társadalmi vetületű nyelvi variációkat mennyiségi szempontok alapján térképeken bemutatni és dokumentálni (vö. Kiss 1999, 421. p.).
A Nyíregyházi Főiskola Magyar Nyelv- és Irodalomtudományi Intézete keretében működő Szociodialektológiai Műhely munkatársai (P. Lakatos Ilona, T. Károlyi Margit) 1997-től végeznek a hármas (magyar–ukrán–román) határ mentén szociodialektológiai változásvizsgálatokat.4 A kutatócsoporthoz a 21. század első évtizede második felében csatlakozott Iglai Edit.

13. ábra. Többdimenziós térkép
3-abr-13

Forrás: P. Lakatos–T. Károlyi–Iglai 2012, 124. térképlap

„Legfontosabb célkitűzéseinket (az országhatár nyelvi elkülönítő szerepének mennyiségi mutatókkal való bemutatása; a különböző nyelvi szituációkban élő, más-más beszélőközösségekhez tartozó, azonos szociokulturális státuszú csoportok nyelvhasználati mutatóinak összevetése; a nyelvi változások szinkrón dinamizmusának érzékeltetése; a lehetséges változási irányok előrevetítése) többdimenziós nyelvföldrajzi térképeken ábrázoljuk” – írják a szerzők (P. Lakatos–T. Károlyi–Iglai 2012, 122–123. p.). A Változó nyelvhasználat a hármas határ mentén című könyvükben az alkotók 8 magyarországi, 6 kárpátaljai és 4 romániai, összesen 18 településről 537 adatközlőtől különböző módszerekkel gyűjtöttek adatokat. A 143 000 nyelvi adatból válogattak, s kutatási céljaiknak legjobban megfelelő 6 településpárt kiemelve szerkesztették meg a többdimenziós morfológiai és lexikai térképlapokat. Az adatok földolgozásához (informatizálásához) speciális szoftvert fejlesztettek ki. A program lehetővé tette a hatalmas nyelvi anyag gépbe vitelét és több szempontú lekérdezhetőségét (vö. P. Lakatos–T. Károlyi–Iglai 2012, 126. p.). A szoftver segítségével 141 többdimenziós lexikai és morfológiai térképet generáltak, melyeket a kötethez mellékeltek CD formájában. A könyv a szerzők több évtizedes kutatómunkájának elméleti és módszertani eredményeivel is megismertet. Szemléltetésül az ebihal lexikai térképlapját mutatjuk be. Ezt a térképet látva megérthetjük, hogy ilyen sokrétű elemzésre alkalmas többdimenziós lapok kizárólag számítógéppel hozhatók létre.

6. Befejező megjegyzések. Jelen tudománytörténeti tanulmányban azt kívántam bemutatni, hogy milyen nagy szerepet tölt be a számítógép a dialektológiában. A különböző műhelyekben kifejlesztett speciális szoftverek alkalmazásával korábban elképzelhetetlen gyorsasággal és mélységben tárhatók föl a nyelvhasználat területi és társadalmi összefüggései. (Nem ünneprontási szándékkal jegyzem meg, de kívánatos lenne az egyes műhelyek tevékenységének az integrálása, a kutatási területek összehangolása.)
Új dialektológiai kutatási területek (pl. fonémamegterheltségi, -gyakorisági, jelentésföldrajzi stb.) nyílhatnak meg. Óriási adatbázisok építhetők ki, és folyamatosan bővíthetők a korábbi (kéziratban és nyomtatott forrásban lévő) gyűjtések anyagaival: regionális tájszótárakkal, regionális nyelvatlaszokkal. A magyar dialektológia ismét bekapcsolódhat a nemzetközi kutatásokba.

Irodalom

Balogh Lajos 1982. Kovács Margit keramikusművész nyelvi regionalitása. Magyar Nyelv, 476–487. p.
Balogh Lajos–Kiss G. Gábor 1992. A magyar nyelvjárások atlaszának számítógépes feldolgozása. In Kontra Miklós (szerk.): Társadalmi és területi változatok a magyar nyelvben. Budapest, MTA Nyelvtudományi Intézete (Linguistica Series A Studia et Dissertationes, 9.) 5–17. p.
Balogh Lajos–Pelle Béláné 1972. Palóc kutatás. Kérdőív a palóc nyelvjárási sajátságok felkutatásához. Módszertani Közlemények XII., Eger.
Bodó Csanád–Vargha Fruzsina Sára 2008. Régi nyelvatlaszok – új módszerek. Nyelvtechnológiai eljárások a nyelvföldrajzban. Magyar Nyelv, 335–351. p.
Deme László–Imre Samu (szerk. a munkaközösség közreműködésével) 1968–1977. A magyar nyelvjárások atlasza I–VI. Budapest, Akadémiai Kiadó.
Hankó Ildikó 1990. Kanadai magyarok vállalkozása. Magyar Nemzet, 1990. december 10.
Imre Samu 1971. A mai magyar nyelvjárások rendszere. Budapest, Akadémiai Kiadó.
Juhász Dezső 2001. A nyelvjárásmérés (dialektrometria) In Kiss Jenő (szerk.): Magyar dialektológia. Budapest, Osiris Kiadó, 137–140. p.
Juhász Dezső–Radványi Péter–Vékás Domokos 2000. Egy dialektológiai adatbázis és elektronikus prezentációs rendszer alapvetése. Magyar Nyelv, 47–58. p.
Kiefer Ferenc 1994. A magyar nyelv mint a modern kommunikáció eszköze. Magyar Tudomány, 631–642. p.
Kiss Jenő 1999. A dialektológia kettős feladata és a nyelvföldrajz. Magyar Nyelv, 418–425. p.
P. Lakatos Ilona (szerk.) 2012. Változó nyelvhasználat a hármas határ mentén. Többdimenziós nyelvföldrajzi térképlapok tanúságai. Budapest, Tinta Kiadó.
P. Lakatos Ilona–T. Károlyi Margit–Iglai Edit 2012. Többdimenziós nyelvföldrajzi ábrázolás: dinamikus nyelvi struktúra. In É. Kiss Katalin és Hegedűs Attila (szerk.): Nyelvelmélet és dialektológia 2. Piliscsaba, PPKE BTK Elméleti Nyelvészeti Tanszék – Magyar Nyelvészeti Tanszék.
Márton Gyula (gyűjt.) és Hegedűs Attila (szerk.) 2000. Szilágysági nyelvatlasz. Buda­pest– Piliscsaba, Magyar Nyelvtudományi Társaság, Pázmány Péter Katolikus Egyetem Bölcsészettudományi Kara.
Menyhárt József–Presinszky Károly 2011. Csallóközi nyelvjárási adattár – első eredmények. A VII. Nemzetközi Hungarológiai Kongresszus szekció-előadásai. Kolozsvár, 2011. augusztus 22–27. A Nyelvjáráskutatás a Kárpát-medencében: integrálható adattárak építése és elemzése c. szekcióban 2011. augusztus 27-én felolvasott előadás kézirata.
Murádin László (gyűjt.) és Juhász Dezső (szerk.) 1995–2010. A romániai magyar nyelvjárások atlasza I–XI. Budapest, Magyar Nyelvtudományi Társaság.
Cs. Nagy Lajos 2007. Jelentésföldrajzi vizsgálatok a nagyatlasz, az Új magyar tájszótár és a medvesalji gyűjtés alapján. In Guttmann Miklós, Molnár Zoltán (szerk.): V. Dialektológiai Szimpozion. Szombathely, A Berzsenyi Dániel Tanárképző Főiskola Magyar Nyelvé­szeti Tanszékének Kiadványai VIII., 63–68. p.
Cs. Nagy Lajos 2011. Medvesalja magyar nyelvjárási atlasza. Nagykapos (Veľké Kapušany), Luminosus n.o. Kiadó.
Cs. Nagy Lajos 2013. Jelentésföldrajzi vizsgálatok informatizált nyelvatlaszok korpuszaiban. In Szoták Szilvia–Vargha Fruzsina Sára (szerk.): Változó nyelv, nyelvváltozatok, területiség. A VII. Nemzetközi Hungarológiai Kongresszus szekció-előadásai. Kolozsvár, 2011. augusztus 22–27. Kolozsvár, Egyetemi Műhely Kiadó, Bolyai Társaság.
Sándor Anna 2004. A Nyitra-vidéki magyar nyelvjárások atlasza. Pozsony, Kalligram Könyvkiadó.