M. Pintér Tibor: „Határtalan” magyar nyelv – az első, határon túli magyar nyelvváltozatokat tartalmazó strukturált magyar nyelvi korpuszról

1. Be­ve­ze­tés

A mai nyel­vé­sze­ti ku­ta­tá­sok mód­szer­ta­ni alap­el­ve az adat­ori­en­tált­ság, a ku­ta­tás mély­sé­gé­nek és mi­lyen­sé­gé­nek meg­fe­le­lő adat­men­­nyi­ség biz­to­sí­tá­sa. A „meg­fe­le­lő meny­­nyi­ség” a ku­ta­tás cél­já­tól, il­let­ve a ku­ta­tást vég­ző nyel­vé­sze­ti disz­cip­lí­na mi­lyen­sé­gé­től füg­gő­en vál­toz­hat. A ku­ta­tás ered­mé­nye­i­nek pon­tos­sá­ga azon­ban ál­ta­lá­ban nö­vel­he­tő a fel­dol­go­zan­dó anyag men­­nyi­sé­gé­nek nö­ve­lé­sé­vel. En­nek meg­fe­le­lő­en a nyel­vé­szet­ben egy­re in­kább fel­ér­té­ke­lő­dik az adat­bá­zis­ok szerepe.1 A kü­lön­fé­le ku­ta­tá­sok­hoz szük­sé­ges adat­gyűj­tés ál­ta­lá­ban el­vé­gez­he­tő az adott disz­cip­lí­na te­rü­le­tén be­lül is, azon­ban az ös­­sze­gyűj­tött ada­tok fel­dol­go­zá­sa így ál­ta­lá­ban eset­le­ges, mi­ni­má­lis ma­rad, hi­szen nem biz­tos, hogy az adat­bá­zist – az egy­fé­le meg­kö­ze­lí­tés­mód mi­att – más disz­cip­lí­na is fel tud­ja hasz­nál­ni. Az ide­á­lis ál­la­pot va­ló­szí­nű­leg az len­ne, ha olyan, kü­lön­bö­ző mó­don struk­tu­rált adat­bá­zis­ok készül(het)­nének, ame­lyek a leg­több tu­do­mány­te­rü­let szá­má­ra fel­hasz­ná­lás és fel­dol­go­zás cél­já­ból el­ér­he­tők len­né­nek, és egy tel­jes be­szé­lő- vagy nyelv­kö­zös­sé­get rep­re­zen­tál­ná­nak. Mind­két cél el­éré­se je­len­leg szin­te meg­va­ló­sít­ha­tat­lan­nak tű­nik, fő­ként két ok­ból ki­fo­lyó­lag. Egy­részt azért, mert a nyel­vé­szet egyes ágai oly mér­ték­ben dif­fe­ren­ci­á­lód­tak, hogy szin­te le­he­tet­len va­la­men­­nyit ki­elé­gí­te­ni (ne­héz len­ne olyan adat­tá­rat ké­szí­te­ni, ame­lyet pél­dá­ul a kí­sér­le­ti fo­ne­ti­ka és a nyelv­tör­té­net ugyan­olyan mér­ték­ben hasz­nál­na), más­részt egy nagy lét­szá­mú be­szé­lő­kö­zös­ség, sőt nyelv­kö­zös­ség rep­re­zen­ta­tív min­ta­vé­te­len ala­pu­ló adat­tá­rá­nak ös­­sze­ál­lí­tá­sa szin­te ki­vi­te­lez­he­tet­len (az adat­tá­rak rep­re­zen­ta­ti­vi­tá­sá­ról lásd Biber 1993; Pin­tér 2003, 74–76).
Az adat­bá­zis­ok fel­dol­go­zá­sá­nak eset­le­ges­sé­ge, az­az a fel­dol­go­zás rész­le­tes­sé­ge és szé­les­sé­ge a szé­les­kö­rű kí­vá­nal­mak mi­att szin­te át­hi­dal­ha­tat­lan fel­adat. Ez azon­ban nem je­len­ti azt, hogy nem len­né­nek rá kí­sér­le­tek – akár a ma­gyar nyelv(terület)en be­lül is. Az adat­tá­rak ke­ze­lé­sé­ben, szer­kesz­té­sé­ben, fel­dol­go­zá­sá­ban leg­na­gyobb sze­re­pet je­len­leg a kor­pusz­nyel­vé­szet (és a tő­le szin­te el­vá­laszt­ha­tat­lan szá­mí­tó­gé­pes nyel­vé­szet) játs­­sza. A kor­pusz­nyel­vé­szet el­ter­je­dé­sé­vel mó­do­sul­tak az adat­tá­rak fel­dol­go­zá­sá­nak mód­jai, il­let­ve rész­ben mó­do­sult azok be­so­ro­lá­sa, meg­ne­ve­zé­se is. Bár a szak­iro­da­lom nem egy­sé­ges a kor­pusz (vagy szá­mí­tó­gé­pes szö­veg­tár) de­fi­ni­á­lá­sá­ban, még­is úgy tű­nik, mó­do­sul­nak a kor­pu­szok meg­ha­tá­ro­zá­sá­nak kö­ve­tel­mé­nyei. A kor­pusz­nyel­vé­szet tér­nye­ré­sé­vel egy­re in­kább a szá­mí­tó­gé­pes fel­dol­go­zott­sá­got (nem be­szél­he­tünk te­hát kor­pusz­ról ak­kor, ha az adat­tár pél­dá­ul új­sá­gok vagy hang­fel­vé­te­lek gyűj­te­mé­nye: ez adat­tár, de nem kor­pusz), il­let­ve a struk­tu­rált­sá­got (te­hát a szá­mí­tó­gé­pen tá­rolt szö­ve­gek ön­ma­guk­ban még nem kor­pu­szok) te­kint­het­jük a leg­fon­to­sabb szem­pont­nak a kor­pu­szok meg­ha­tá­ro­zá­sá­ban.
A ma­gyar nyel­ven ké­szült kor­pu­szok kö­zül a leg­na­gyobb a ma már több mint 187 mil­lió sza­vas Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz (Kmmnyk). En­nek előd­je, a Ma­gyar nem­ze­ti szö­veg­tár az NKFP 5/044/2002 pá­lyá­za­tá­nak se­gít­sé­gé­vel ki­e­gé­szült egy 15 mil­lió szó­ból ál­ló, a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­to­kat be­mu­ta­tó alko­r­pussza­l. Az így ös­­sze­ál­lí­tott kor­pusz va­ló­ban „nem­ze­ti” lett, mi­vel nem­csak a ma­gyar­or­szá­gi ma­gyar nyelv­vál­to­za­tok­ból me­rít, ha­nem a Ma­gyar­or­szág­gal szom­szé­dos ál­la­mok­ban be­szélt ma­gyar nyelv­vál­to­za­tok­ból is (szer­ve­zett gyűj­tés és fel­dol­go­zás ed­dig a szlo­vá­ki­ai, a ro­má­ni­ai, az uk­raj­nai és a szer­bi­ai ma­gyar nyelv­vál­to­za­tok­ból tör­tént).

2. A ki­vi­te­le­zők – Az MTA ha­tá­ron tú­li ku­ta­tó­ál­lo­má­sa­i­nak há­ló­za­ta

A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz ha­tá­ron tú­li ma­gyar alko­r­puszá­nak el­ké­szí­té­sé­hez a hát­te­ret a Ma­gyar­or­szág­gal ha­tá­ros or­szá­gok­ban lé­te­sí­tett ku­ta­tó­há­ló­zat ál­lo­má­sai szol­gál­tat­ták: Szlo­vá­ki­á­ban a dunasz­er­da­he­lyi Gram­ma Nyel­vi Iro­da, Er­dély­ben a Ko­lozs­vá­rott és Szep­siszent­györ­gyön mű­kö­dő Sza­bó T. At­ti­la Nyel­vi In­té­zet, Kár­pát­al­ján a be­reg­szá­szi Hodin­ka An­tal In­té­zet és a Vaj­da­ság­ban a ka­ni­zsai Vaj­da­sá­gi Ma­gyar Nyel­vi Kor­pusz. A nyel­vi iro­dák lét­re­ho­zá­sá­ban leg­fon­to­sabb sze­re­pet a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­tot érin­tő fel­ada­tok, il­let­ve a ha­tá­ron tú­li ma­gyar­sá­got érin­tő kü­lön­fé­le tár­sa­da­lom­tu­do­má­nyi ku­ta­tá­sok meg­szer­ve­zé­se ját­szot­ta (Lanstyák–Menyhárt 2001, 190–191). A fent em­lí­tett in­téz­mé­nyek a Ma­gyar Tu­do­má­nyos Aka­dé­mia Et­ni­kai-nem­ze­ti Ki­sebb­ség­ku­ta­tó In­té­ze­té­nek (fő­ként igaz­ga­tó­já­nak, Szar­ka Lász­ló­nak) szer­ve­zé­sé­ben 2001. ok­tó­ber 1-jé­től mű­köd­nek, lét­re­hoz­va az MTA ha­tá­ron tú­li ku­ta­tó­ál­lo­má­sa­i­nak há­ló­za­tát. A ku­ta­tó­há­ló­zat fel­ada­tai kö­zött ki­emel­ke­dő je­len­tő­ség­gel bí­ró kor­pusz­nyel­vé­sze­ti ku­ta­tá­sok szak­mai ko­or­di­ná­to­ra a Ma­gyar Tu­do­má­nyos Aka­dé­mia Nyelv­tu­do­má­nyi In­té­ze­té­nek Kor­pusz­nyel­vé­sze­ti Osz­tá­lya lett (mai ne­ve: Nyelv­tech­no­ló­gi­ai Osz­tály), a ku­ta­tá­sok gaz­da­sá­gi hát­te­ré­ért pe­dig a Ma­gyar Tu­do­má­nyos Aka­dé­mia Et­ni­kai-nem­ze­ti Ki­sebb­ség­ku­ta­tó In­té­ze­te fe­lelt.
A Kmm­nyk ha­tá­ron tú­li anya­gok­kal tör­té­nő bő­ví­té­se csu­pán egy az MTA ha­tá­ron tú­li ku­ta­tó­ál­lo­má­sa­i­nak fel­ada­tai kö­zül (a fel­ada­tok­ról bő­veb­ben lásd http://www.m­ta­k­i.hu/ku­ta­toal­lo­ma­sok). Bár a ku­ta­tó­há­ló­za­tot al­ko­tó iro­dák sa­ját prob­lé­mák­kal fog­lal­ko­zó ku­ta­tá­si te­rü­le­tek­kel is ren­del­kez­nek, leg­na­gyobb ered­mé­nye­i­ket még­is az ún. kö­zös ku­ta­tá­sok­ban mu­tat­ják fel. Ezek a Kár­pát-me­den­cei ma­gyar­ság nyel­vi hely­ze­té­re irá­nyul­nak, s a kö­vet­ke­ző te­rü­le­te­ket öle­lik fel:
1. a Kár­pát-me­den­cei ma­gyar nyel­vű ok­ta­tás hely­ze­te (a ma­gyar nyelv hely­ze­te a ki­sebb­sé­gi ma­gyar ré­gi­ók­ban);
2. a ma­gyar nyelv ál­la­mi vál­to­za­ta­it érin­tő le­xi­kog­rá­fi­ai ku­ta­tá­sok (a Ma­gyar­or­szá­gon ki­adott kod­i­fiká­ciós ér­vé­nyű szó­tá­rak anya­gá­nak bő­ví­té­se a Ma­gyar­or­szág ha­tá­ra­in kí­vül hasz­nált ma­gyar nyelv­vál­to­zat sza­va­i­val – Határ­ta­lanítás I.);
3. a kor­pusz­épí­tés­sel kap­cso­la­tos kö­zös ku­ta­tá­sok (a Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz bő­ví­té­se a Ma­gyar­or­szág ha­tá­ra­in kí­vül hasz­nált ma­gyar nyelv­vál­to­za­tok­kal – Határ­ta­lanítás II.).
A kö­zös ku­ta­tá­sok kö­zül ed­dig leg­kéz­zel­fog­ha­tóbb ered­mé­nyek a kor­pusz­nyel­vé­sze­ti és a le­xi­kog­rá­fi­ai ku­ta­tá­sok­ban mu­tat­koz­nak meg.2

2.1. A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz

A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz ha­tá­ron tú­li alko­r­pusza (így a Szlo­vá­ki­ai ma­gyar kor­pusz is) a ma­gyar nyelv leg­ki­egyen­sú­lyo­zot­tabb szá­mí­tó­gé­pes nyel­vi adat­bá­zi­sá­nak ré­sze­ként jött lét­re. Rö­vi­den ös­­sze­fog­lal­va, a Ha­tá­ron tú­li ma­gyar kor­pusz négy Ma­gyar­or­szág­gal ha­tá­ros or­szág­ban meg­je­lent vagy el­hang­zott szö­ve­gek szá­mí­tó­gép­pel fel­dol­go­zott, ré­teg­zett gyűj­te­mé­nye. Ez a kor­pusz nem kí­ván a ha­tá­ron tú­li ma­gyar szö­ve­gek rep­re­zen­ta­tív min­tá­ja len­ni, hi­szen a rep­re­zen­ta­ti­vi­tás kri­té­ri­u­ma­it ez eset­ben le­he­tet­len len­ne meg­fo­gal­maz­ni, s ha ezek a kö­ve­tel­mé­nyek meg­fo­gal­ma­zód­ná­nak is, az egyes szö­veg­tí­pu­sok ál­lan­dó vál­to­zá­sát, az egyes ará­nyok moz­gá­sát szin­te le­he­tet­len len­ne kö­vet­ni (vö. a 4.4. al­fe­je­zet utol­só be­kez­dé­sé­vel).
A Ha­tá­ron tú­li ma­gyar kor­pusz­ban a ha­tá­ron tú­li ma­gyar nyel­vű anya­gok ará­nya a kö­vet­ke­ző­kép­pen lett meg­ha­tá­roz­va: szlo­vá­ki­ai ma­gyar rész 4 mil­lió, a ro­má­ni­ai 6 mil­lió, a kár­pát­al­jai 3 mil­lió, míg a vaj­da­sá­gi 2 mil­lió szö­veg­szó. Mint ahogy azt a kö­vet­ke­ző táb­lá­zat mu­tat­ja, eze­ket a kö­ve­tel­mé­nye­ket nem volt ne­héz tel­je­sí­te­ni. Az igaz­ság­hoz azon­ban az is hoz­zá­tar­to­zik, hogy a kor­pusz a ha­tá­ron tú­li anya­gok ösz­­sze­gyűj­té­se előtt is tar­tal­ma­zott szlo­vá­ki­ai és ro­má­ni­ai ma­gyar na­pi­la­po­kat, ame­lyek a ki­e­gé­szü­lés után a ki­sebb­sé­gi saj­tó­hoz let­tek cso­por­to­sít­va.
A Kmm­nyk je­len­le­gi ál­la­po­tát a kö­vet­ke­ző táb­lá­zat alap­ján te­kint­het­jük át.

1. táb­lá­zat. A Kmm­nyk 2006. no­vem­ber 1-jei ál­la­po­ta
Magyarorszgi

For­rás: http://­cor­pus.ny­tud.hu/mn­sz.
Meg­jegy­zés: * mil­lió

A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz több tu­laj­don­sá­gá­val is ki­tű­nik a töb­bi ma­gyar nyel­vű kor­pusz kö­zül. Je­len­leg több mint 187 mil­lió szót tar­tal­maz3, re­gisz­te­rei kö­zött meg­ta­lál­ha­tók az írott és be­szélt nyelv­vál­to­za­tok is, il­let­ve ez az egyet­len olyan ma­gyar nyel­vű ma­gyar nyel­vi kor­pusz, amely nem­csak ma­gyar­or­szá­gi, ha­nem ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­to­kat is tar­tal­maz.
A ha­tá­ron tú­li alko­r­pusz ké­szí­té­sé­nek előz­mé­nye a Ma­gyar nem­ze­tei szö­veg­tá­rig nyú­lik vis­­sza. A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz meg­va­ló­sí­tá­sát (és így a Ha­tá­ron tú­li ma­gyar kor­pusz meg­va­ló­sí­tá­sát is) ugyan­is meg­előz­te a Ma­gyar nem­ze­ti szö­veg­tár pro­jekt­je. Az ak­kor még 140 mil­lió sza­vas kor­pusz pár mil­lió sza­va szár­ma­zott ha­tá­ron tú­li fo­lyó­irat­ok­ból (a fel­vi­dé­ki Új Szó­ból és az er­dé­lyi Ro­má­ni­ai Ma­gyar Szó­ból). Ezt ter­mé­sze­te­sen ak­kor csu­pán mu­tat­vány­ként vagy jó szán­dék­ként le­he­tett ér­tel­mez­ni, ami a szó­ke­re­sés­kor in­kább za­va­ró volt, mint se­gí­tő, hi­szen a nem ma­gyar­or­szá­gi saj­tó­ban kü­lön nem le­het ke­res­ni, vi­szont a ma­gyar­or­szá­gi ada­tok ke­re­sé­se köz­ben a ha­tá­ron tú­li ada­tok za­va­ró­an ha­tot­tak. Nyil­ván­va­ló volt te­hát, hogy szük­ség és igény van egy na­gyobb, a ki­sebb­sé­gi ma­gyar nyelv­vál­to­za­to­kat be­mu­ta­tó szö­veg­tár­ra is. A ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­to­kat be­mu­ta­tó kor­pusz ré­sze a ku­ta­tó­ál­lo­más egyik fő fel­ada­ta­ként aposzt­ro­fált határ­ta­lanítás­nak, hi­szen a szö­veg­tár cél­ja a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­tok ma­gyar­or­szá­gi ter­jesz­té­se. A ku­ta­tó­há­ló­zat kor­pusz­mun­ká­la­to­kért fe­le­lős mun­ka­tár­sai saj­nos ele­in­te nem hang­sú­lyoz­ták elég­gé, hogy a Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz is ré­sze a határ­ta­lanítás­nak. A kor­pusz­mun­ká­la­tok és a határ­ta­lanítás kap­cso­la­ta csu­pán Kol­láth An­na 2005-ben írt, a határ­ta­lanítás­ról szó­ló ta­nul­má­nya után me­rült fel (Kolláth 2005a). Kol­láth A határ­ta­lanítás cí­mű fe­je­zet­ben úgy fo­gal­maz, hogy: „a határ­ta­lanítás­nak az a cél­ja, hogy a ma­gyar nyelv szó­tá­rai és ké­zi­köny­vei, ame­lyek Tri­a­non óta, de el­ső­sor­ban 1945 után in­kább csak a ma­gyar­or­szá­gi ma­gyar nyelv­ről szól­tak, egye­te­mes lép­té­kű­vé, összmagyarrá vál­ja­nak” (Kolláth 2005a, 16). Ab­ban egyet­ér­tek a ta­nul­mány szer­ző­jé­vel, hogy a határ­ta­lanítás „hor­do­zó­i­nak” min­den­kép­pen a szó­tá­rak­nak kell len­ni­ük. A szá­mí­tás­tech­ni­ka fej­lő­dé­se azon­ban mó­do­sít­ja a már meg­szo­kott szótárdefiní­ciót, meg­je­len­tek a szá­mí­tó­gé­pes „szó-tá­rak” leg­újabb faj­tái, a kor­pu­szok, amelyek ese­tünk­ben szin­tén a határ­ta­lanítás szer­ves ré­szei – ezt az­óta a ku­ta­tó­há­ló­zat tag­jai is hang­sú­lyoz­zák. A kor­pu­szok szin­tén egy nyelv szó­anya­gát dol­goz­zák fel, s fel­hasz­ná­lá­suk nem­csak a szó­ke­re­sés­ben me­rül ki, hi­szen is­mer­tek olyan szó­tá­rak és nyelv­tan­ok is, ame­lyek kor­pu­szok alap­ján íród­tak (pl. a John Sin­clair ne­vé­vel fém­jel­zett Collins Cobuild – Eng­lish Gram­mar).
A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz ha­tá­ron tú­li anya­ga még a to­váb­bi­ak­ban is bő­vül­ni fog: re­mél­he­tő­leg nem csak mély­sé­gé­ben, ha­nem szé­les­sé­gé­ben is. Re­mél­he­tő­leg az MTA ha­tá­ron tú­li ku­ta­tó­ál­lo­má­sa­i­nak se­gít­sé­gé­vel si­ke­rül leg­alább őr­vi­dé­ki és mu­ra­vi­dé­ki anya­go­kat gyűj­te­ni, il­let­ve fel­dol­goz­ni.

3. Kez­de­ti lé­pé­sek a Ha­tá­ron tú­li ma­gyar kor­pusz te­rén

A Ha­tá­ron tú­li ma­gyar kor­pusz­ról szó­ló el­ső hi­va­ta­los fel­jegy­zé­sek 2001-ben ké­szül­tek. A ku­ta­tó­há­ló­zat lét­re­ho­zá­sa után min­den iro­da ki­dol­goz­ta sa­ját ter­ve­ze­tét és a mun­ka meg­va­ló­su­lá­sá­nak ütem­terv­ét. A mun­ka gya­kor­la­ti ré­szé­nek el­in­dí­tá­sá­ban az MTA Nyelv­tu­do­má­nyi In­té­ze­té­ben mű­kö­dő Kor­pusz­nyel­vé­sze­ti Osz­tály (mai ne­vén: Nyelv­tech­no­ló­gi­ai Osz­tály) ál­tal szer­ve­zett kor­pusz­nyel­vé­sze­ti tré­nin­gek je­len­tet­tek fel­be­csül­he­tet­len se­gít­sé­get. A tré­nin­gek és a kez­de­ti mun­ka­ta­pasz­ta­la­tok után az elő­ze­tes ter­vek mó­do­sul­tak: vol­tak fel­ada­tok, ame­lyek a mun­ka szem­pont­já­ból ké­sőbb fe­les­le­ges­nek bi­zo­nyul­tak (pl. a kor­pusz­nyel­vé­sze­ti mun­kák­hoz szo­ro­san nem kap­cso­ló­dó lis­ták ké­szí­té­se a szlo­vá­ki­ai ma­gyar saj­tó­ról, kap­cso­lat­fel­vé­tel olyan nyel­vé­szek­kel, akik­kel a ké­sőb­bi­ek­ben nem érint­kez­tünk), és vol­tak te­en­dők, ame­lyek csak az el­ső tré­ning után me­rül­tek fel (pl. a ké­sőb­bi mun­ka szem­pont­já­ból leg­na­gyobb je­len­tő­sé­gű szá­mí­tó­gé­pes szöveg­á­ta­lakítás vagy kap­cso­lat­tar­tás, kom­mu­ni­ká­ció a töb­bi iro­dá­val, il­let­ve a Nyelv­tu­do­má­nyi In­té­zet­tel).
Há­rom év táv­la­tá­ból vis­­sza­néz­ve fi­gye­lem­re mél­tó, hogy az iro­da­há­ló­zat kez­det­ben olyan fel­adat­ra vál­lal­ko­zott, amely­nek el­vég­zé­sé­hez nem állt ren­del­ke­zé­sünk­re sem tu­dás, sem ta­pasz­ta­lat. Ezek, va­la­mint a kez­de­ti si­ker­te­len­sé­gek fé­nyé­ben ma már el­mond­ha­tó, hogy ezt a pro­jek­tet ilyen for­má­ban me­rész­ség volt lét­re­hoz­ni. Bár ké­sőbb az ös­­szes szük­sé­ges anya­gi esz­közt és szer­ve­zé­si se­gít­sé­get meg­kap­tuk, az iro­dák köz­ti föld­raj­zi tá­vol­sá­g mi­att az ér­de­mi mun­ka csak na­gyon ne­he­zen in­dult be. Eb­ben sze­re­pe volt az iro­dák köz­ti ne­héz­kes pár­be­széd­nek is (il­let­ve a mun­ka ter­mé­sze­té­ből adó­dó ta­pasz­ta­lat­lan­ság­nak), pe­dig a kom­mu­ni­ká­ció gyor­sí­tá­sa vé­gett a ku­ta­tó­há­ló­za­tot al­ko­tó nyel­vi iro­dák szá­má­ra kö­zös le­ve­le­ző­lis­tát is létre­hoz­tunk.4 Az el­ső két év­ben saj­nos a kom­mu­ni­ká­ció na­gyon eset­le­ges­nek bi­zo­nyult (en­nek okát az iro­dák túl­ter­helt­sé­gé­ben, il­let­ve a kor­pu­szon dol­go­zók el­szi­ge­telt­sé­gé­ben lá­tom), ám a fel­ada­tok hal­mo­zó­dá­sá­val és az idő sür­ge­té­sé­vel a kom­mu­ni­ká­ci­ós prob­lé­mák má­ra meg­ol­dód­tak.
A Kmm­nyk ha­tá­ron tú­li kor­pu­sza egy­sé­ges for­má­tu­mú és szer­ke­ze­tű szö­veg­cso­por­tot al­kot. En­nek fel­té­te­le azon­ban nem csak a kö­zös mun­ka volt, ha­nem a jó szer­ve­zés is. A mun­ka ter­mé­sze­te úgy kí­ván­ta, hogy a ku­ta­tó­há­ló­zat kor­pusz­nyel­vé­sze­ti te­en­dő­it több sze­mély ko­or­di­nál­ja. Az egyes iro­dák mun­ká­já­hoz szük­sé­ges tech­no­ló­gi­ai kö­ve­tel­mé­nyek biz­to­sí­tá­sát, a bu­da­pes­ti szak­mai ös­­sze­jö­ve­te­lek szer­ve­zé­sét, il­let­ve a há­ló­zat ko­or­di­ná­lá­sát Bartha Csil­la vé­gez­te. Mi­vel Bartha nem szá­mí­tó­gé­pes nyel­vész, a szak­mai fel­ada­tok el­len­őr­zé­sé­ért Oravecz Csa­ba, il­let­ve Vára­di Ta­más fe­lel­t.
A ku­ta­tó­há­ló­zat lét­re­ho­zó­ja és irá­nyí­tó­ja az MTA Et­ni­kai-nem­ze­ti Ki­sebb­ség­ku­ta­tó In­té­ze­te volt. A há­ló­zat fel­ada­tai kö­zött elő­ző­leg nem csak nyel­vé­sze­ti, ha­nem egyéb tár­sa­da­lom­tu­do­má­nyi ku­ta­tá­sok vég­re­haj­tá­sa és szer­ve­zé­se is he­lyet ka­pott. Az a kez­de­tek­től fog­va nyil­ván­va­ló volt, hogy a kor­pusz­nyel­vé­sze­ti te­vé­keny­sé­get egy tár­sa­da­lom­tu­do­má­nyi ku­ta­tá­sok­kal fog­lal­ko­zó in­té­zet (MTA ENKI) nem tud­ja fel­ügyel­ni. Bartha Csil­la (MTA Nyelv­tu­do­má­nyi In­té­ze­te, MTA Et­ni­kai-nem­ze­ti Ki­sebb­ség­ku­ta­tó In­té­ze­te), il­let­ve Vára­di Ta­más (MTA Nyelv­tu­do­má­nyi In­té­ze­te) sze­mé­lyé­ben azon­ban ez a prob­lé­ma meg­ol­dó­dott, hi­szen így ezt a pro­jek­tet szak­ma­i­lag nyel­vé­szek irá­nyí­tot­ták.
A gaz­da­sá­gi és szak­mai fel­ügye­let meg­osz­lá­sa 2005 ta­va­szá­ig mű­kö­dött ilyen for­má­ban, ek­kor a ku­ta­tó­há­ló­zat irá­nyí­tá­sa át­ke­rült az MTA Nyelv­tu­do­má­nyi In­té­ze­té­hez (az­az az ös­­szes ku­ta­tás irá­nyí­tá­sát a Nyelv­tu­do­má­nyi In­té­zet vég­zi). Az Et­ni­kai-nem­ze­ti Ki­sebb­ség­ku­ta­tó In­té­zet­től ez ért­he­tő lé­pés volt, hi­szen a ku­ta­tó­há­ló­zat kö­zös fel­ada­tai nyel­vé­sze­ti té­má­jú­ak (no­ha a ku­ta­tó­há­ló­zat ter­mé­sze­té­ből adó­dó­an ezek is min­den eset­ben ren­del­kez­nek „ki­sebb­sé­gi” vo­nat­ko­zás­sal, s az iro­dák egyé­ni ku­ta­tá­sai kö­zött is van­nak ki­sebb­sé­ge­ket érin­tő – nem csak nyel­vé­sze­ti – kér­dé­sek). Az új hely­zet nem ér­ző­dött a ku­ta­tá­so­kon, hi­szen azok ugyan­olyan in­ten­zi­tás­sal foly­tak min­den ré­gi­ó­ban. Ez an­nak is kö­szön­he­tő, hogy a „kö­zös ku­ta­tás”-ként meg­fo­gal­ma­zott fel­ada­to­kat az iro­da­há­ló­zat mun­ka­tár­sai és Bartha Csil­la, az­az min­den eset­ben nyel­vé­szek koordinálták.5

3.1. Kor­pusz­nyel­vé­sze­ti tré­nin­gek

Az elő­ze­tes meg­be­szé­lé­sek és le­ve­le­zé­sek után a Kmm­nyk ha­tá­ron tú­li kor­pu­szá­nak ké­szí­tői az el­ső el­mé­le­ti és gya­kor­la­ti in­for­má­ci­ó­kat 2003. ja­nu­ár 30–31-én kap­ták meg, de mint ké­sőbb a gya­kor­lat­ból ki­de­rült, a fo­lya­ma­tos, ered­mé­nyes mun­ka vég­zé­sé­hez ez az egy­sze­ri al­ka­lom nem volt ele­gen­dő, to­váb­bi fo­lya­ma­tos egyez­te­té­sek­re, szak­mai ös­­sze­jö­ve­te­lek­re volt szük­ség. Mi­vel a ku­ta­tó­há­ló­zat kor­pusz­nyel­vé­sze­ti te­en­dő­ket el­lá­tó mun­ka­tár­sai egyik eset­ben sem ren­del­kez­tek szá­mí­tó­gé­pes nyel­vé­sze­ti vagy kor­pusz­nyel­vé­sze­ti kép­zett­ség­gel – szá­mí­tó­gé­pes elő­is­me­re­te is csak né­há­nyuk­nak volt –, ezért szük­ség volt az elő­kó­do­lást vég­ző sze­mé­lyek be­ta­ní­tá­sá­ra (a kó­do­lás­ról bő­veb­ben lásd Pin­tér 2003, 79–80). Mi­vel a szö­veg­tár szer­kesz­té­se ja­va­részt me­cha­ni­kus fo­lya­ma­tok el­vég­zé­se, ezért a szá­mí­tó­gé­pes elő­kép­zett­ség itt nem volt fel­té­tel. Ezt bi­zo­nyít­ja az is, hogy több iro­dá­ban azok, akik kez­det­ben a kor­pus­­szal fog­lal­koz­tak, még nyel­vé­sze­ti is­me­re­tek­kel sem ren­del­kez­tek. A nyel­vé­sze­ti be­ál­lí­tott­ság, a nyel­vé­sze­ti alap­is­me­re­tek hi­á­nya ter­mé­sze­te­sen nem je­lent­he­tett prob­lé­mát, hi­szen a nyel­vé­sze­ti tu­dást igény­lő mun­kát a nyel­vi iro­dák nyel­vé­szei is el­vé­gez­het­ték.
A tré­nin­ge­ket (a má­so­dik 2004. jú­ni­us 21–22-én volt) az MTA Nyelv­tu­do­má­nyi In­té­ze­té­nek Nyelv­tech­no­ló­gi­ai Osz­tá­lyát ve­ze­tő Vára­di Ta­más és az osz­tály egyik mun­ka­tár­sa, Oravecz Csa­ba tar­tot­ta. Az el­ső ta­lál­ko­zó al­kal­má­val a ha­tá­ron tú­li szö­ve­gek gyűj­té­sét és kó­do­lá­sát vég­ző szemé­lyek6 meg­is­mer­ked­tek a kó­do­lás­hoz szük­sé­ges el­mé­le­ti és gya­kor­la­ti in­for­má­ci­ók­kal, így a má­so­dik ta­lál­ko­zó so­rán már meg­vi­tat­hat­ták a kó­do­lás fo­lya­mán fel­me­rült gya­kor­la­ti prob­lé­má­kat is. Mi­vel ezek az össze­jö­ve­te­lek Bu­da­pes­ten zaj­lot­tak, ki­sebb-na­gyobb szám­ban min­dig min­den ku­ta­tó­ál­lo­más kép­vi­sel­tet­te magát.7 Bár mind a négy iro­da azo­nos fel­ada­tot vé­gez, a má­so­dik meg­be­szé­lé­sen iro­dán­ként még­is más-más prob­lé­mák me­rül­tek fel. A meg­be­szé­lé­sek csak rész­ben hoz­ták meg a tő­lük várt ered­mé­nye­ket, mi­vel az utol­só kö­zös meg­be­szé­lés után sem gyor­sult az anyag­fel­dol­go­zás, és a prob­lé­mák­kal küsz­kö­dő iro­dák egy év el­tel­té­vel is ugyan­azon hi­bák ki­küsz­öbö­lé­sé­vel fog­lal­koz­tak.
A kor­pusz­nyel­vé­sze­ti tré­nin­gek ered­mé­nye­i­ről, il­let­ve a ku­ta­tó­há­ló­zat kor­pusz­nyel­vé­sze­ti te­vé­keny­sé­gé­ről hon­lap is ké­szült, er­re a kó­do­lás­hoz, il­let­ve a mun­ka köz­ben fel­me­rült prob­lé­mák meg­ol­dá­sá­hoz szük­sé­ges in­for­má­ci­ók Oravecz Csa­ba ré­vén fo­lya­ma­to­san fel­ke­rül­tek (http://­cor­pus.ny­tud.hu/mn­sz­work­shop/in­dex.htm­l).

4. A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz ké­szí­té­sé­nek ré­szei

4.1. Anyag­gyűj­tés

Az iro­dák ál­tal fel­dol­go­zott anyag főbb szer­ke­ze­ti pont­ja­i­ban kö­ve­ti a Ma­gyar nem­ze­ti szö­veg­tá­rat (így tud­ják együt­te­sen al­kot­ni a Kmm­nyk-t). A gya­kor­la­ti meg­va­ló­su­lás­ban ez azt je­len­ti, hogy az MNSZ ma­gyar­or­szá­gi anya­gá­hoz ha­son­ló­an a Ha­tá­ron tú­li kor­pusz is kö­te­le­ző­en öt alko­r­puszból áll: tu­do­má­nyos pró­za, pub­li­cisz­ti­ka, szép­iro­da­lom, hi­va­ta­los nyelv, sze­mé­lyes köz­lé­sek. Az anyag­gyűj­tést min­den iro­dá­ban gon­dos szer­ve­ző­mun­ka előz­te meg, hi­szen a fel­gyűj­tött anya­gok­nak már egy kész struk­tú­rá­ba kel­lett be­il­lesz­ked­ni­ük.
A saj­tó­nyel­vi alko­r­pusz ös­­sze­ál­lí­tá­sa ki­emel­ten fon­tos elő­ké­szü­le­tet kí­vánt, egy­részt mi­vel a saj­tó­nyel­vi szö­ve­gek ma­guk is több­fé­lék (na­pi­lap­ok, if­jú­sá­gi la­pok, nők­nek szó­ló la­pok stb.), így a bel­ső ará­nyo­kat is meg kel­lett ál­la­pí­ta­ni, más­részt mi­vel a ha­tá­ron tú­li ma­gyar la­pok ma­gyar­or­szá­gi la­pok­ból, il­let­ve hír­ügy­nök­sé­gek­től is vesz­nek át cik­ke­ket, s eze­ket elő­ző­leg ki kel­lett vá­lo­gat­ni, hi­szen nem ma­gyar­or­szá­gi anya­gok fel­dol­go­zá­sát tűz­tük ki cé­lul.
A Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz a ma­gyar nyelv je­len­le­gi ál­la­po­tát kí­ván­ja rög­zí­te­ni. Ez a gya­kor­lat­ban azt je­len­ti, hogy a kor­pusz nem tar­tal­maz­hat rend­szer­vál­tás előtt ke­let­ke­zett szö­ve­ge­ket. Ezt a kö­ve­tel­ményt nem min­den alko­r­pusz ese­té­ben tud­tuk betar­tani,8 mi­vel pél­dá­ul a szép­iro­dal­mi szö­ve­gek kö­zött van­nak ko­ráb­bi ke­let­ke­zé­sű­ek is. Ez azon­ban nem okoz ér­tel­me­zé­si és szer­ke­ze­ti gon­dot (már csak azért sem, mi­vel a szép­iro­dal­mi stí­lus „sza­bad­sá­ga” kor­ta­lan, il­let­ve ke­vés­bé vál­to­zó, mint mond­juk a be­szélt nyel­vi).
A tu­do­má­nyos pró­zát tar­tal­ma­zó alko­r­pusz ös­­sze­ál­lí­tá­sá­nak, gyűj­té­sé­nek fő prob­lé­má­ja, hogy a ha­tá­ron tú­li ma­gyar tu­do­má­nyos élet bi­zo­nyos szin­ten gyak­ran több­sé­gi nyel­ven fo­lyik: pél­dá­ul a szlo­vá­ki­ai ma­gyar tu­do­má­nyos eli­tet al­ko­tó ré­teg szlo­vák nyel­vű mun­ka­he­lye­ken dol­go­zik, il­let­ve – ál­ta­lá­ban – szlo­vák nyel­ven pub­li­kál. Ezért a szi­go­rú­an tu­do­má­nyos is­mér­vek sze­rint írott szö­ve­gek­ből jó­val ke­ve­sebb van, mint Ma­gyar­or­szá­gon, il­let­ve ezért ará­nyá­ban több a tu­do­má­nyos is­me­ret­ter­jesz­tő pró­za, mint a ma­gyar­or­szá­gi min­tá­ban.
A ha­tá­ron tú­li ma­gyar hi­va­ta­li nyel­vet (nyelv­hasz­ná­la­tot) be­mu­ta­tó alko­r­pusz egyik alap­pil­lé­re a ku­ta­tó­há­ló­zat nyelv­ter­ve­zé­si te­vé­keny­sé­ge volt (pél­dá­ul a Gram­ma Nyel­vi Iro­da nyelv­ter­ve­zé­si és for­dí­tó­ te­vé­keny­sé­ge).
A leg­ös­­sze­tet­tebb és leg­mun­ka­igé­nye­sebb rész­fel­ada­tot a be­szélt nyel­vi alko­r­pusz meg­szer­kesz­té­se je­len­tet­te, il­let­ve je­len­ti mind a mai na­pig. Alap­ve­tő prob­lé­ma a be­szélt nyel­vi szö­ve­gek le­jegy­zé­se. Az egyes hang­ta­ni je­len­sé­gek le­jegy­zé­sé­nél nem­csak a hang­anyag le­he­tő leg­ár­nyal­tabb vis­­sza­adá­sát kell fi­gye­lem­be ven­ni, ha­nem a szá­mí­tó­gép dik­tál­ta le­he­tő­sé­ge­ket, a mi­nél kön­­nyebb szá­mí­tó­gé­pes ke­re­sés fel­tét­ele­it is ál­lan­dó­an szem előtt kell tar­ta­ni. Így a le­jegy­zés nem le­het olyan rész­le­tek­be me­nő, mint egy fo­ne­ti­kai vagy rész­le­tes nyelv­já­rá­si le­jegy­zés, ám a hang­zó nyelv leg­főbb sa­já­tos­sá­ga­it min­den­kép­pen írás­ban is meg kell pró­bál­ni visz­­sza­ad­ni. A be­szélt nyel­vi szö­ve­gek le­jegy­zé­si út­mu­ta­tó­já­nak vég­le­ge­sí­té­se csak hossza­dal­mas és idő­igé­nyes egyez­te­té­sek után fe­je­ző­dött be, mi­vel a Gram­ma Nyel­vi Iro­dá­ban ké­szült rész­le­tes út­mu­ta­tót fo­ne­ti­kus és szá­mí­tó­gé­pes nyel­vész is vé­le­mé­nyez­te. A le­jegy­zés egy­sé­ge­sí­té­se fon­tos, hi­szen csak úgy ké­szül­het­nek ösz­­sze­ha­son­lít­ha­tó át­irat­ok, ha a szö­ve­gek egy­sé­ges kó­do­lá­si min­ta alap­ján ké­szül­nek el. Ép­pen ezért min­den iro­dá­nak le­he­tő­sé­ge volt kö­zös min­ta ös­­sze­ál­lí­tá­sá­ra, azon­ban saj­nos nem min­den iro­da élt ez­zel a le­he­tő­ség­gel, és nem tett ja­vas­la­tot az út­mu­ta­tó ki­ala­kí­tá­sá­ra. A le­jegy­zé­si út­mu­ta­tó így a Gram­ma Nyel­vi Iro­dá­ban, a Lanstyák Ist­ván ál­tal szer­kesz­tett ja­vas­lat alap­ján ké­szült el Kas­sai Ilo­na egy­sé­ge­sí­té­sé­vel (bő­veb­ben lásd a 4.4. al­fe­je­zet­ben).

4.2. Az anyag­gyűj­tés mód­ja

Az anyag­gyűj­tés leg­egy­sze­rűbb és legkölt­ségkímélőbb mód­sze­re nagy men­­nyi­sé­gű anya­gok gyűj­té­se­kor az inter­netről tör­té­nő le­töl­tés. Az inter­net leg­na­gyobb elő­nye, hogy a raj­ta lé­vő anya­gok min­den­ki szá­má­ra sza­ba­don hoz­zá­fér­he­tők, le­tölt­he­tők, il­let­ve hogy a kész anyag (ez eset­ben szö­veg) gyor­san és kön­­nyen hoz­zá­fér­he­tő. Saj­ná­la­tos mó­don azon­ban az anyag­gyűj­tés­nek ez a mód­ja sem tö­ké­le­tes, mert amel­lett, hogy az inter­net a kor­pusz szá­má­ra sok fe­les­le­ges ada­tot tar­tal­maz (pl. ké­pek, vi­de­ók, moz­gó rek­lá­mok, az­az nem szö­ve­ges ré­szek, amelyek ki­szű­ré­se ugyan nem je­lent prob­lé­mát, csu­pán a le­töl­tés fo­lya­ma­tá­nak ide­jét nö­ve­li), a le­töl­tött anya­gok fel­hasz­ná­lá­sa szer­zői jo­gi prob­lé­má­kat is fel­vet – te­hát lát­ha­tó, hogy az inter­netes gyűj­tés sem min­den eset­ben prob­lé­ma­men­tes. Ezért min­den inter­netről le­töl­tött szö­veg fel­hasz­ná­lá­sá­ra elő­ző­leg en­ge­délyt kell (kel­le­ne) kér­ni a szer­zők­től, il­let­ve a hon­lap mű­köd­te­tő­jé­től.
Bár az anyag­gyűj­tés szem­pont­já­ból az inter­net óri­á­si elő­nyök­kel jár, min­den alko­r­­puszhoz még­sem nyúj­tott anya­got (leg­in­kább a saj­tó­nyel­vi és a hi­va­ta­li nyel­vi alko­r­­pusz gyűj­té­sé­ben volt se­gít­sé­günk­re). Mi­vel az iro­dák mun­ka­tár­sai sa­ját ré­gi­ó­juk­ban köz­is­mert em­be­rek, ezért gyak­ran ma­gán­sze­mé­lyek­től, il­let­ve sze­mé­lyes is­me­ret­ség alap­ján ki­adók­tól és szer­kesz­tő­sé­gek­től is kap­tunk szö­ve­ge­ket. Az anyag­gyűj­tés, az­az a he­lyi is­mert­ség és is­me­ret­ség ki­ak­ná­zá­sá­nak, ér­té­ke­sí­té­sé­nek szem­pont­já­ból po­zi­tív lé­pés­nek bi­zo­nyult a ku­ta­tó­há­ló­zat kor­pusz­nyel­vé­sze­ti meg­bí­zá­sa.

4.3. Fel­dol­go­zás

A gyűj­tés utá­ni szö­veg­fel­dol­go­zás, az­az mun­kánk ér­de­mi ré­sze nem je­len­tett kü­lö­nö­sen ne­héz fel­ada­tot, mi­vel az csu­pán már meg­lé­vő szö­ve­gek XML-formátumúvá tör­té­nő át­ala­kí­tá­sá­ban me­rült ki. Meg­fe­le­lő prog­ra­mok hi­á­nyá­ban a fel­adat ne­héz­sé­ge fő­leg a fo­lya­mat hos­­szú­sá­gá­ban rej­lett, ám ez a fo­lya­mat (akár egy­sze­rű Word-al­kal­ma­zá­sok­kal is) jól au­to­ma­ti­zál­ha­tó – így ide­je je­len­tő­sen csök­kent­he­tő. A ha­tá­ron tú­li anya­gok ese­té­ben a fel­dol­go­zás két el­kü­lö­nít­he­tő fo­lya­mat­ból áll. Az el­ső fo­lya­mat, az­az a szö­ve­gek át­ala­kí­tá­sa az egyes iro­dák­ban, míg a fel­dol­go­zás má­so­dik, és egy­ben bo­nyo­lul­tabb fo­lya­ma­ta pe­dig az MTA Nyelv­tu­do­má­nyi In­té­ze­té­ben tör­tént (ér­te­lem­sze­rű­en a ma­gyar­or­szá­gi anya­gok ese­té­ben mind­két rész­fo­lya­mat Ma­gyar­or­szá­gon tör­té­nik).
Az alap­for­má­tum­tól (alap­szö­veg­től) a cél­for­má­tu­mig tar­tó szá­mí­tó­gé­pes és szá­mí­tó­gé­pes nyel­vé­sze­ti fo­lya­ma­tokat a kö­vet­ke­ző­kép­pen mo­del­lál­hat­juk:

1. áb­ra. Az MTA ha­tá­ron tú­li iro­dá­i­ban vég­zett fo­lya­mat

.doc, .txt
.xm­l-szöveg ® validált .xm­l-szöveg
.html ® tisz­ta .htm­l-szöveg

Ahogy az áb­rá­ból is lát­szik, a fo­lya­mat nem túl bo­nyo­lult mind­ös­­sze egy bo­nyo­lul­tabb szö­veg­szer­kesz­tő prog­ram­ra és egy elő­re meg­ha­tá­ro­zott XML DTD-re van szük­sé­günk. A meg­for­má­zott és an­no­tált szö­ve­gek to­váb­bi elem­zé­sét az MTA Nyelv­tu­do­má­nyi In­té­ze­té­ben vé­gez­ték el.
A Nyelv­tu­do­má­nyi In­té­zet­ben vég­zett fo­lya­mat so­rán min­den adott szó­alak morfoszintaktikai je­gyei kó­dok for­má­já­ban (ún. msd, az­az mor­pho-syn­tac­tic descrip­tion kó­dok) az adott szó­alak mel­lé ke­rül­nek. Ezt a kó­do­lást a Mor­pho­Lo­gic Kft.-ben ki­fej­lesz­tett Hu­mor (High-Speed Uni­fi­ca­tion Mor­phol­o­gy) mor­fo­ló­gi­ai elem­ző­prog­ram vég­zi: a prog­ram lé­nye­ge, hogy szó­tár és nyelv­tan se­gít­sé­gé­vel fel­is­me­ri (elem­zi vagy adott eset­ben ge­ne­rál­ja) az adott szó­ala­ko­kat. Mi­vel a prog­ram nem ren­del­ke­zik sze­man­ti­kai is­me­re­tek­kel, így ál­ta­lá­ban egy-­e­gy szó­nak több elem­zé­sét is lét­re­hoz­za (pl. ultra­marinkék=ul­tra­marin [FN]+kék[FN]~ultra[FN]+mar[FN]+i[_IKEP]+nk[PSt1] +ék[FAM]+[NOM]). Ezek a szó­alak-ho­mo­ni­mák több­sé­gé­ben azon­ban még a mor­fo­ló­gi­á­ban ke­zel­he­tők, sőt a szö­veg­szin­ta­xis is­me­re­té­ben ál­ta­lá­ban majd­nem tel­jes mér­ték­ben egyér­tel­mű­sít­he­tők (a Hu­mor-prog­ram mű­kö­dé­sé­ről és az elem­zés fo­lya­ma­tá­ról lásd még Novák 2003; Novák–M. Pin­tér megj. alat­t). A már egy­sze­rű­sí­tett szö­ve­get az XML-dokumentumoknak meg­fe­le­lő szer­ke­zet sze­rint fej­léc­cel lát­ják el, amely tar­tal­maz­za a szö­veg ke­let­ke­zé­sé­re és meg­je­le­né­sé­re vo­nat­ko­zó in­for­má­ci­ó­kat (pl. a szö­veg ke­let­ke­zé­sé­nek ide­je, he­lye, a szö­veg szer­ző­je, a ki­adó ne­ve, stb. – lásd http://www.tei-c.org/P4X/HD.html). A szö­ve­gek fel­dol­go­zá­sá­nak má­so­dik ré­szét rö­vi­den a kö­vet­ke­ző­kép­pen fog­lal­hat­juk ös­­sze:

validált .xm­l-szöveg ® szö­veg­ré­szek szeg­men­tá­lá­sa ® (szó­alak-ho­mo­ni­mák) egy­sze­rű­sí­té­se ® an­no­tált (kó­dolt) rész­kor­pusz ® TEI head­er (fej­léc) ® bel­ső re­fe­ren­cia­mu­ta­tók ® vég­ső validálás ® Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz

4.4. Prob­lé­mák

Az elő­ző fe­je­zet­ben fel­vá­zolt alap­kó­do­lás az egyes ré­gi­ók­ban el­té­rő gyor­sa­ság­gal, el­té­rő mód­sze­rek­kel, il­let­ve el­té­rő szá­mí­tó­gé­pes prog­ra­mok­kal va­ló­sult meg (a vég­ered­ményt el­len­őr­ző prog­ram azon­ban min­den ku­ta­tó­ál­lo­má­son azo­nos volt: ez ga­ran­tál­ta az egy­sé­ges ki­me­ne­tet). Az el­té­rő mód­sze­rek ter­mé­sze­te­sen ké­sőbb a mun­ka­fo­lya­mat­ban el­té­rő prob­lé­má­kat okoz­tak. Ezek meg­vi­ta­tá­sá­val és meg­ol­dá­sá­val több csa­tor­nán pró­bál­koz­tunk. Er­re szol­gál­tak a már em­lí­tett kor­pusz­nyel­vé­sze­ti tré­nin­gek, to­váb­bá az iro­dák kö­zös meg­be­szé­lé­sei, az illye­falvi ta­lál­ko­zók, il­let­ve tá­jé­koz­ta­tó cél­lal jött lét­re a Kmm­nyk ha­tá­ron tú­li kor­pu­szá­nak hon­lap­ja (http://­cor­pus.ny­tud.hu/mn­sz­work­shop/in­dex.htm­l), va­la­mint az egy­más köz­ti kom­mu­ni­ká­ció elő­se­gí­té­se vé­gett, az iro­dák kö­zös ügye­i­nek meg­vi­ta­tá­sá­ra lét­re­ho­zott „nyel­vé­szet-le­ve­le­ző­lis­ta” vagy „nyelvésznet” is. A fel­me­rü­lő kér­dé­sek meg­vá­la­szo­lá­sá­ban a kö­zös fó­ru­mok mel­lett el­ső­sor­ban a Nyelv­tu­do­má­nyi In­té­zet Nyelv­tech­no­ló­gi­ai Osz­tá­lyá­nak mun­ka­tár­sai (Oravecz Csa­ba és Vára­di Ta­más) se­gí­tet­tek.
A Ha­tá­ron tú­li kor­pusz sa­já­tos ter­mé­sze­tű prob­lé­má­ja az élő­nyel­vi alko­r­pusz. A prob­lé­ma alap­ját az élő­nyel­vi szö­ve­gek le­jegy­zé­sét elő­se­gí­tő egy­sé­ge­sí­tett le­jegy­zé­si út­mu­ta­tó el­ké­szí­té­sé­nek csú­szá­sa je­len­tet­te. A ku­ta­tó­há­ló­zat meg­be­szé­lé­se­i­ről ké­szült em­lé­kez­te­tők ta­nú­sá­ga sze­rint már 2002 má­ju­sá­ban szó esett az élő­nyel­vi le­jegy­zés el­ké­szí­té­sé­ről, az ar­ra szó­ló meg­bí­zás­ról. Ez kom­mu­ni­ká­ci­ós és egyéb (szer­ve­zé­si) prob­lé­mák mi­att saj­nos csak 2005 de­cem­be­ré­ben ké­szült el. Az élő­nyel­vi szö­ve­gek le­jegy­zé­sé­nek es­­szen­ci­á­ja az egy­sé­ges kó­do­lás. Az alko­r­pusz lét­re­ho­zá­sá­nak csak ak­kor van ér­tel­me, ha min­den ré­gi­ó­ban azo­nos min­ta alap­ján tör­té­nik a le­jegy­zés. Mi­vel az ös­­szes ha­tá­ron tú­li ré­gió egy kö­zös szö­veg­tár anya­gát bő­ví­ti, ezért a ré­gi­ók­ban ké­szü­lő anya­gok ki­me­ne­tel­ének ki­vé­tel nél­kül azo­no­sak­nak kell len­ni­ük: en­nek oka a szö­ve­gek­ben tör­té­nő ke­re­sés. Ez azon­ban csak ak­kor va­ló­sul­hat meg, ha elő­ző­leg a szö­ve­gek azo­nos rend­szer alap­ján vol­tak kó­dol­va. Ilyen meg­fon­to­lás­ból te­hát kü­lön­bö­ző kó­do­lá­si min­ták hasz­ná­la­tá­nak nem lett vol­na ér­tel­me: pon­to­san a Ha­tá­ron tú­li kor­pusz alap­gon­do­la­tát, a kü­lön­bö­ző ré­gi­ók nyel­vi anya­gá­ban tör­té­nő egy­sé­ges ke­re­sést aka­dá­lyoz­ná meg. Ez ter­mé­sze­te­sen még nem zár­ja ki az egyes iro­dák­ban fel­me­rü­lő, az alap­kó­do­lá­son tú­li to­váb­bi, spe­ci­á­lis kó­do­lást, mi­vel min­den iro­da sa­ját aka­ra­ta sze­rint to­vább kó­dol­hat­ja a szö­ve­ge­ket. Az alap­kó­do­lás­nál rész­le­te­sebb anyag sor­sa azon­ban még nincs tisz­táz­va. Ez vagy a kor­pusz ré­sze lesz, vagy nem ke­rül a töb­bi, alap­kód­dal el­lá­tott szö­veg kö­zé, és csu­pán az iro­da sa­ját kor­pu­szát fog­ja gya­ra­pí­ta­ni.
Az egy­sé­ges le­jegy­zé­si út­mu­ta­tó el­ké­szí­té­sé­ben min­den iro­da sza­bad ke­zet ka­pott. A le­jegy­zen­dő hang­ta­ni je­len­sé­gek ös­­sze­ál­lí­tá­sa fel­ada­ta lett vol­na min­den iro­dá­nak: a kö­zös meg­egye­zé­sek ér­tel­mé­ben el­sőd­le­ge­sen egy nyers vál­to­zat ké­szült vol­na el, amely tar­tal­maz­ta vol­na az iro­dák ál­tal fon­tos­nak tar­tott élő­nyel­vi je­len­sé­gek le­jegy­zé­sé­re vo­nat­ko­zó ja­vas­la­to­kat. Az iro­dák ál­tal ös­­sze­ál­lí­tott le­jegy­zé­si út­mu­ta­tót ké­sőbb egy fo­ne­ti­kus szak­em­ber, Kas­sai Ilo­na egy­sé­ge­sí­tet­te vol­na. Saj­nos fél­re­ér­té­sek mi­att a le­jegy­zé­si út­mu­ta­tó ös­­sze­ál­lí­tá­sá­nak ez a ter­ve nem va­ló­sult meg. A ku­ta­tó­há­ló­zat­ból – Lanstyák Ist­ván mun­ká­já­nak kö­szön­he­tő­en – csu­pán a Gram­ma Nyel­vi Iro­da tet­te meg ja­vas­la­tát. Mi­vel a Lanstyák ál­tal ös­­sze­ál­lí­tott kó­do­lá­si út­mu­ta­tó (en­nek egy ko­ráb­bi vál­to­za­tát lásd Lanstyák 2004, 181–185) – idő hi­á­nyá­ban – hos­­szú­nak és bo­nyo­lult­nak bi­zo­nyult, ezért a Gram­ma Nyel­vi Iro­da elő­állt egy rö­vi­debb és szá­mí­tó­gé­pes szem­pon­to­kat is fi­gye­lem­be ve­vő ja­vas­lat­tal. A töb­bi iro­da kö­zül ké­sőbb csu­pán a vaj­da­sá­gi­ak tet­tek ja­vas­la­tot (Rajsli 2004, 65), azon­ban ez nem fe­lelt meg az elő­ző­leg meg­ha­tá­ro­zott kö­ve­tel­mé­nyek­nek (az ál­ta­luk ké­szí­tett út­mu­ta­tó in­kább di­a­lek­to­ló­gi­ai le­írást, a vaj­da­sá­gi nyelv­vál­to­za­tok sa­já­tos ele­me­i­nek le­írá­sát és nem egy ál­ta­lá­nos élő­nyel­vi le­jegy­zést ta­kar: ezt mu­tat­ja az is, hogy helyspeci­fikus és nem ál­ta­lá­nos je­len­sé­ge­ket tar­tal­maz). Mi­vel így a szö­veg­tár­ral fog­lal­ko­zó négy ré­gi­ó­ból csu­pán egyi­kük ja­vas­la­ta volt hasz­nál­ha­tó, a szer­ve­zők Kas­sai Ilo­nát kér­ték fel egy al­kal­maz­ha­tó le­jegy­zé­si út­mu­ta­tó el­ké­szí­té­sé­re. Kas­sai 2006 ele­jé­re ké­szí­tet­te el az út­mu­ta­tót, mely nagy rész­ben a fent em­lí­tett Lanstyák ál­tal ké­szí­tett le­jegy­zé­si út­mu­ta­tón alap­szik.
Az élő­nyel­vi szö­ve­gek le­jegy­zé­sé­nek prob­lé­má­ja na­pi­ren­den volt az iro­dák ta­lál­ko­zó­in: így 2004 jú­li­u­sá­ban Illye­falván is fel­ve­tő­dött. Az iro­dák és az MTA Nyelv­tu­do­má­nyi In­té­ze­tét kép­vi­se­lő Oravecz Csa­ba ak­kor ab­ban egyez­tek meg, hogy amíg a le­jegy­zést vég­zők nem kap­nak kö­zös le­jegy­zé­si út­mu­ta­tót, ele­gen­dő lesz, ha a meg­lé­vő szö­ve­ge­ket va­la­mi­lyen edi­tor­ban (.tx­t-fájlkén­t) stan­dard he­lyes­írás­sal le­je­gy­­zik, s így – ide­ig­le­ne­sen – ez ké­pez­né a ké­sőb­bi fel­dol­go­zás alap­ját (a stan­dard he­lyes­írást an­nak egy­sé­ges jel­le­ge mi­att vá­lasz­tot­tuk). A kó­do­lás for­má­ja mel­lett egyez­ség szü­le­tett a le­jegy­zen­dő szö­veg tí­pu­sa­it il­le­tő­en is. Az egyez­ség szép­ség­hi­bá­ja, hogy a 2004-es illye­falvi ta­lál­ko­zón a négy iro­da kö­zül csu­pán a szer­ve­zők (Sza­bó T. At­ti­la Nyel­vi In­té­zet) és a Gram­ma Nyel­vi Iro­da kép­vi­sel­tet­te ma­gát. Ör­ven­de­tes azon­ban, hogy a nyel­vi iro­dák (ku­ta­tó­ál­lo­má­sok) mel­lett kép­vi­sel­tet­te ma­gát az őr­vi­dé­ki (Auszt­ria) és a mu­ra­vi­dé­ki (Szlo­vé­nia) ku­ta­tó­hely is (saj­ná­la­tos mó­don az illye­falvi egyez­mé­nyek kor­pusz­nyel­vé­sze­ti te­en­dői csu­pán két iro­da meg­be­szé­lé­sei után jöt­tek lét­re, a kár­pát­al­jai – Hodin­ka An­tal In­té­zet – és a vaj­da­sá­gi – Vaj­da­sá­gi Ma­gyar Nyel­vi Kor­pusz – ku­ta­tó­ál­lo­má­sok ké­sőbb hagy­ták jó­vá azo­kat).
A be­szélt nyel­vi kor­pus­­szal kap­cso­la­to­san az iro­dák mun­ka­tár­sai 2004-ben a kö­vet­ke­zők­ben egyez­tek meg:
– a le­jegy­zen­dő hang­fel­vé­te­lek nem le­het­nek az 1990-es évek­nél ko­ráb­bi­ak;
– a stan­dard mel­lett di­a­lek­tu­sok­nak is he­lyet kell ad­ni a hang­fel­vé­te­lek kö­zött, ezek a di­a­lek­tu­sok azon­ban csu­pán a főbb nyelv­já­rá­si te­rü­le­te­ket kép­vi­sel­he­tik; a kor­pusz­ba ke­rü­lő egyes di­a­lek­tu­sok ará­nyát az azo­kat be­szé­lők ará­nyá­ból kell ki­szá­mol­ni; a nyelv­já­rá­si hang­anyag­nak nem­csak in­for­má­lis be­szél­ge­té­se­ket, ha­nem for­má­lis re­gisz­te­re­ket is kell tar­tal­maz­nia (pl. rit­u­al­izált szö­ve­gek, élet­tör­té­ne­tek); a nyelv­já­rá­si hang­anyag az egész anyag 40-50%-át te­he­ti ki;
– a fel­vé­te­lek kö­zött for­má­lis (pl. mű­sza­ki, or­vo­si, hu­mán szö­ve­gek; kon­fe­ren­ci­ák, pré­di­ká­ció, ta­ná­ri ma­gya­rá­zat, po­li­ti­kai nyi­lat­ko­zat, ön­kor­mány­za­ti ülés) és in­for­má­lis (kü­lön­fé­le be­szél­ge­té­sek, pl. bol­ti) re­gisz­te­rek­hez tar­to­zó stan­dard szö­ve­gek is le­gye­nek; a dialogikus és in­for­má­lis re­gisz­te­rek­nek kell több­ség­ben len­ni­ük, az ös­­szes fel­vé­tel 70-80%-át kell al­kot­ni­uk;
– két­nyel­vű­sé­gi tí­pu­sok: a mag­yardom­ináns két­nyel­vű be­szé­lők­től szár­ma­zó hang­fel­vé­te­lek az anyag 40-50%-át, az ál­lam­nyel­vi do­mi­náns be­szé­lők­től szár­ma­zó fel­vé­te­lek az anyag 35%-át kell al­kot­nia; egy­nyel­vű be­szé­lők hang­anya­gá­nak az egész 15%-át kell al­kot­nia;
– az adat­köz­lők ki­vá­lasz­tá­sá­nak szem­pont­ja­it hier­ar­chizál­ni kell;
– kor­cso­port­ok: gye­re­kek és idős adat­köz­lők is kel­le­nek; a gye­re­kek kép­vi­sel­he­tik az in­for­má­lis, egy­nyel­vű, az idő­sek a nyelv­já­rá­si be­szé­lő­ket;
– az egyes di­gi­ta­li­zált hang­fáj­lok­hoz és a hoz­zá­juk tar­to­zó le­jegy­zett szö­veg­hez fej­lé­cet is csa­tol­ni kell, amit cél­sze­rű len­ne kü­lön fájl­ban tá­rol­ni; en­nek a kö­vet­ke­ző ada­to­kat kel­le­ne tar­tal­maz­nia: a fel­vé­tel idő­pont­ja, a fel­vé­telt ké­szí­tő sze­mély ne­ve; az adat­köz­lő ne­ve, ne­me, élet­ko­ra, fog­lal­ko­zá­sa, szü­le­té­si he­lye, la­kó­he­lye, hol élt töb­bet: vá­ros­ban/fa­lu­ban, csa­lá­di ál­la­po­ta; az ál­ta­la el­sa­já­tí­tott nyel­vek, a csa­lád­já­ban hasz­nált nyel­vek; té­ma, szi­tu­á­ció, a je­len­le­vő sze­mé­lyek szá­ma, azok és az adat­köz­lő köz­ti vi­szony jel­le­ge; rá­di­ó­ban el­hang­zott fel­vé­te­lek ese­té­ben: élő mű­sor vagy fel­vett mű­sor, nyers vagy ja­ví­tott fel­vé­tel; a hang­fájl he­lye a szá­mí­tó­gé­pen (an­nak el­éré­si mu­ta­tó­ja), a fájl for­má­tu­ma, a fájl szá­ma;
Ott, ahol le­he­tett, igye­kez­tünk az egyes szö­veg­tí­pu­sok szá­za­lé­kos ará­nyát is meg­ha­tá­roz­ni. Mi­vel tisz­tá­ban vol­tunk ve­le, hogy az ará­nyok be­tar­tá­sa ne­héz fel­adat, ezért úgy ha­tá­roz­tunk, hogy a meg­ál­la­pí­tott ará­nyok­tól min­den iro­da 10%-kal el­tér­het.
Bár az anyag­gyűj­tés­hez tar­to­zik, még­is itt szól­nék a hi­va­ta­li nyel­vet és a sze­mé­lyes köz­lést (ame­ly ma­gá­ban fog­lal­ja a be­szélt nyel­vi szö­ve­ge­ket) be­mu­ta­tó alko­r­puszról. A két alko­r­pusz gyűj­té­se két kü­lön­bö­ző prob­lé­mát vet fel. A ha­tá­ron tú­li ma­gyar hi­va­ta­li nyelv­vel kap­cso­lat­ban két kér­dés me­rül fel. Mi­vel a hi­va­ta­li írás­be­li­ség leg­gyak­rab­ban for­ma­nyom­tat­vá­nyok for­má­já­ban van je­len, ezek pe­dig leg­gyak­rab­ban a ma­gyar­or­szá­gi nyom­tat­vá­nyok for­ma­hű át­vé­te­lei. Ez eset­ben pe­dig nem be­szél­he­tünk szlo­vá­ki­ai ma­gyar vagy ro­má­ni­ai ma­gyar hi­va­ta­li nyelv­ről, hi­szen ezek ál­ta­lá­ban ma­gyar­or­szá­gi min­tát kö­vet­nek, vesz­nek át. A ma­gyar­or­szá­gi min­ták kö­ve­té­sét il­le­tő­en jó len­ne kü­lönb­sé­get ten­ni a be­szélt és írott nyelv­vál­to­za­tok kö­zött, hi­szen nyil­ván­va­ló, hogy az írott nyelv­vál­to­zat job­ban kö­ze­lít majd a stan­dard for­mák­hoz, il­let­ve a ma­gyar­or­szá­gi min­ták­hoz, míg a be­szélt vál­to­zat erő­seb­ben tük­rö­zi a két­nyel­vű be­széd­kör­nye­zet­ben élő kon­tak­tus­vál­to­za­to­kat (egy ké­sőb­bi vál­to­zat­ban ta­lán jó len­ne meg­kü­lön­böz­tet­ni egy írott és egy be­szélt hi­va­ta­li nyel­vet be­mu­ta­tó alko­r­puszt). A ki­sebb­sé­gi ré­gi­ók hi­va­ta­li nyel­vé­nek egy má­sik sa­já­tos­sá­ga a meg­va­ló­su­lá­suk sok­fé­le­sé­ge. Mi­vel a hi­va­ta­los do­ku­men­tu­mok (le­gyen az for­dí­tás vagy ere­de­ti szö­veg) ki­adá­sa nem cent­ra­li­zált, így gya­ko­ri je­len­ség egy ré­gi­ón be­lül is, hogy ugyan­an­nak a do­ku­men­tum­nak kü­lön­bö­ző te­le­pü­lé­se­ken el­té­rő for­má­ja van. A ku­ta­tó­há­ló­zat egyik sze­re­pe ép­pen a hi­va­ta­los do­ku­men­tu­mok, for­ma­nyom­tat­vá­nyok köz­pon­to­sí­tá­sa, a jo­gi-köz­igaz­ga­tá­si ter­mi­no­ló­gia egy­sé­ge­sí­té­se és az adott ré­gió ma­gyar nyel­vű hi­va­ta­los írás­be­li­ség­ének ki­ala­kí­tá­sa.
A be­szélt nyel­vi alko­r­pusz el­ké­szí­té­se szin­tén két alap­ve­tő kér­dést vet fel. A Ma­gyar nem­ze­ti szö­veg­tár anya­ga­i­ból és el­ve­i­ből ki­in­dul­va, en­nek az alko­r­pusz­nak tar­tal­maz­nia kel­le­ne egy élő­nyel­vi le­jegy­zé­se­ket ma­gá­ban fog­la­ló be­szélt nyel­vi részt, il­let­ve a be­szélt nyelv­hez kö­ze­lí­tő, gyors be­széd­for­du­lók­ból ál­ló cset­fórumok anya­gát (ezt ne­vez­het­jük sze­mé­lyes köz­lés­nek is). Mi­vel az élő­nyel­vi anya­gok prob­lé­má­já­ról már szól­tam, most csak a sze­mé­lyes köz­lé­sek­kel fog­lal­ko­zom. Saj­nos egyik ré­gi­ó­ban sem ta­lál­tunk meg­fe­le­lő fó­ru­mot, ezért a ha­tá­ron tú­li alko­r­pusz „sze­mé­lyes köz­lé­se­ket” ma­gá­ban fog­la­ló ré­sze tar­tal­má­ban el­tér majd a ma­gyar­or­szá­gi­tól (pl. em­lé­ke­zé­sek, ma­gán­le­ve­lek). A be­szélt nyel­vet és a sze­mé­lyes köz­lést be­mu­ta­tó kor­pusz ese­té­ben elő­re meg kel­lett vol­na ha­tá­roz­ni a bel­ső struk­tú­rát és ará­nyo­kat, azon­ban er­re nem ke­rült sor. A két alko­r­puszról ös­­sze­gez­ve el­mond­ha­tó, hogy egyik eset­ben sem tel­je­sí­tik majd a szer­kesz­tők ál­tal meg­ha­tá­ro­zott leg­alább 10%-os arányt. En­nek okai ös­­sze­tet­tek: ke­res­het­jük a nyel­vi va­ló­ság­ban és az iro­dák­ban is.
Va­ló­di prob­lé­mát je­lent a szá­za­lé­kos ará­nyok be­tar­tá­sa is, hi­szen ez nem min­den alko­r­pusz ese­té­ben ki­vi­te­lez­he­tő. Az elő­ze­tes meg­ál­la­po­dá­sok ér­tel­mé­ben az egyes ha­tá­ron tú­li alko­r­pus­zok szer­ke­ze­ti egy­sé­gei (szép­iro­da­lom, tu­do­má­nyos pró­za, saj­tó, hi­va­ta­los nyelv, sze­mé­lyes köz­lés) azok leg­alább 10%-át kel­lett, hogy al­kos­sák. Ez a 10%-os ha­tár azon­ban nem min­den alko­r­pusz ese­té­ben volt meg­va­ló­sít­ha­tó: leg­in­kább a hi­va­ta­los nyelv­vál­to­za­tot és a sze­mé­lyes köz­lést tar­tal­ma­zó alko­r­pus­zok ese­té­ben nem. En­nek oka, hogy a hi­va­ta­los nyel­vet be­mu­ta­tó alko­r­pusz ese­té­ben nem ta­lál­tunk meg­fe­le­lő men­­nyi­sé­gű anya­got. Eb­ben a pont­ban a va­ló­ság „nem fe­lelt meg az ere­de­ti el­kép­ze­lé­sek­nek”, hi­szen a ki­sebb­ség nem „ter­mel” ak­ko­ra men­­nyi­sé­gű hi­va­ta­los ira­tot, mint az el­vár­ha­tó len­ne, il­let­ve en­nek ösz­­sze­té­te­le is – a tu­do­má­nyos pró­zá­hoz ha­son­ló­an – ke­vés­bé hi­va­ta­los anya­gok­kal van ve­gyít­ve. Át­me­ne­ti­leg prob­lé­mát je­lent a sze­mé­lyes köz­lés alko­r­pusz is: en­nek leg­alább két rész­ből kel­le­ne áll­nia – egyik ré­sze a gyors be­széd­for­du­lók­ból ál­ló cset­fórumok szö­ve­ge, a má­sik a be­szélt nyel­vi szö­ve­gek le­jegy­zett vál­to­za­ta. A ha­tá­ron tú­li ma­gyar cset­fórumok a ma­gyar­or­szá­gi­ak­hoz ké­pest alul­rep­re­zen­tál­tak, így ne­he­zebb a kel­lő (ará­nya­i­ban meg­fe­le­lő) men­­nyi­sé­gű szö­ve­get ös­­sze­gyűj­te­ni. A be­szélt nyel­vi szö­ve­gek fo­lya­ma­to­san bő­vít­he­tők, de csu­pán azu­tán, hogy az iro­dák be­gya­ko­rol­ták a le­jegy­zé­si út­mu­ta­tót. Így a 10% el­mé­le­ti­leg el­ér­he­tő (vagy in­kább csak el­kép­zel­he­tő), ám mi­vel a töb­bi alko­r­pusz is gya­rap­szik, en­nek esé­lye egy­re ke­ve­sebb (a hi­va­ta­los nyel­vi szö­ve­gek ese­té­ben in­kább el­kép­zel­he­tet­len).

5. Word­ject

Vé­gül szól­nék még a ku­ta­tó­há­ló­zat leg­fris­sebb vál­lal­ko­zá­sá­ról, a Mor­pho­Lo­gic Kft. ál­tal gyár­tott ma­gyar nyel­vű he­lyes­írás-el­len­őr­ző és nyelv­he­lyes­ség-el­len­őr­ző (a to­váb­bi­ak­ban csak he­lyes­írás-el­len­őr­ző) prog­ram­cso­mag ha­tá­ron tú­li ma­gyar anya­gá­nak ös­­sze­ál­lí­tá­sá­ról (gyűj­tés és kó­do­lás). Ez a prog­ram a Mic­ro­soft Office ter­mék­cso­mag­ban hasz­ná­la­tos Win­dows Word, il­let­ve Quark XPress he­lyes­írás el­len­őr­ző­je­ként is­me­re­tes, de kor­pusz­elem­ző­ként is mű­kö­dik. A prog­ram fő cél­ja, hogy je­lez­ze a szö­veg­ben elő­for­du­ló el­üté­se­ket és hi­bás sza­va­kat. A ter­mék fel­hasz­nál­ha­tó­sá­ga azon­ban ezen túl­mu­tat, hi­szen ren­del­ke­zik egy, a nagy­kö­zön­ség ál­tal ke­vés­bé is­mert funk­ci­ó­val is: a nyelv­he­lyes­ség-el­len­őr­zés alap­ja egy ma­gyar nyelv­re al­kal­ma­zott mor­fo­ló­gi­ai ge­ne­rá­ló-elem­ző mo­tor (Hu­mor), amely szá­mí­tó­gé­pen tá­rolt kor­pu­szok nyel­vi elem­zé­sé­re is al­kal­maz­ha­tó. Mi­vel eze­ket a mű­ve­le­te­ket nem em­ber, ha­nem gép vég­zi, ezért „ta­nít­ha­tó­sá­ga” elég­gé kor­lá­to­zott: csak meg­lé­vő nyelv­ta­ni sza­bá­lyok és kész szó­tár alap­ján tud ge­ne­rál­ni, il­let­ve ele­mez­ni. Ez azt je­len­ti, hogy csak azo­kat a sza­va­kat fo­gad­ja el he­lyes­nek, ame­lyek az el­len­őr­ző szó­tá­rá­ban meg­ta­lál­ha­tók (ame­lye­ket a mor­fo­ló­gi­ai elem­ző­prog­ram ge­ne­rál): ez le­het vagy az alap­cso­mag szó­tá­ra, vagy a fel­hasz­ná­ló ál­tal ös­­sze­ál­lí­tott ún. sa­ját­szó­tár. Az alap­cso­mag szó­tá­rát a Mor­pho­Lo­gic Kft. ál­lít­ja ös­­sze, így ezt min­den ál­ta­luk ter­jesz­tett he­lyes­írás-el­le­n­őr­ző tar­tal­maz­za – ez akár több mil­lió fel­hasz­ná­lót is je­lent­het, ha fi­gye­lem­be vesz­­szük a szá­mí­tó­gé­pen ma­gyar nyel­ven írók szá­mát. A le­ír­tak­ból kö­vet­ke­zik, hogy fel­te­he­tő­en ma ez a Ma­gyar­or­szá­gon leg­gyak­rab­ban hasz­nált szó­tár (bár a fel­hasz­ná­lók va­ló­szí­nű­leg nem tud­nak er­ről). Az alap­szó­tár csak Ma­gyar­or­szá­gon ké­szí­tett szó­tá­rak­ból áll, így ért­he­tő, hogy nem tar­tal­maz anya­got a ma­gyar nyelv ha­tá­ron tú­li vál­to­za­ta­i­ból (bár az elem­ző leg­újabb, még nem pi­ac­ké­pes vál­to­za­ta tar­tal­maz­za az Ér­tel­me­ző ké­zi­szó­tár má­so­dik ki­adá­sát és az Osiris Ki­adó He­lyes­írá­sát).
A szö­veg­szer­kesz­tők­be épí­tett he­lyes­írás-el­len­őr­ző alá­hú­zás­sal jel­zi, hogy a fel­hasz­ná­ló „va­ló­szí­nű­leg” hi­bás szót írt le vagy egyéb nyelv­he­lyes­sé­gi hi­bát vé­tett. A zöld hul­lám­vo­nal­lal tör­té­nő alá­hú­zás ál­ta­lá­ban nyelv­he­lyes­sé­gi vagy szö­veg­szer­ke­ze­ti hi­bát je­löl: pl. szó­kö­zök, mon­dat­ha­tár el­len­őr­zé­se vagy trá­gár ki­fe­je­zé­sek meg­je­lö­lé­se. Ez va­ló­já­ban ér­dek­te­len a ma­gyar nyelv ál­la­mi vagy ha­tá­ron tú­li vál­to­za­ta­i­nak meg­íté­lé­se szem­pont­já­ból, hi­szen a szö­veg­szer­ke­ze­ti sa­já­tos­sá­gok és az elem­ző ál­tal ke­zelt sti­lisz­ti­kai ap­ró­sá­gok min­den ma­gyar nyelv­vál­to­zat­ra egy­for­mán ér­vé­nye­sek. A pi­ros hul­lám­vo­nal­lal tör­té­nő alá­hú­zás a he­lyes­írás-el­len­őr­ző ál­tal nem is­mert sza­vak meg­je­lö­lé­sét je­len­ti. Min­den olyan szót alá­húz, ame­lyet sem az alap­szó­tár­ban, sem a sa­ját­szó­tár­ban nem ta­lál meg. Mi­vel a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­tok nem ré­szei a szó­tár­nak, így min­den ha­tá­ron tú­li ma­gyar köz­szót és a hely­ség­ne­vek túl­nyo­mó több­sé­gét alá­húz­za, az­az hi­bás szó­nak mi­nő­sí­ti. Az már tu­do­má­nyos köz­hely­nek szá­mít, hogy a ma­gyar nyelv­kö­zös­ség nor­ma­tív be­ál­lí­tott­sá­gú, az­az a nyel­vé­szek­től, szó­tá­rak­tól ka­pott in­for­má­ci­ót ál­ta­lá­ban mér­le­ge­lés nél­kül el­fo­gad­ja – hi­szen az úgy­is szak­em­be­rek­től szár­ma­zik. Eb­ben a fo­lya­mat­ban nagy sze­re­pet ját­szik a he­lyes­írás-el­len­őr­ző is, hi­szen egy ilyen szé­les kör­ben hasz­nált ter­mék (szó­tár) nem hi­báz­hat. Te­hát a nyelv­he­lyes­ség-el­len­őr­ző mi­nő­sít: a Ma­gyar­or­szág ha­tá­ra­in kí­vü­li ma­gyar te­le­pü­lés­ne­vek ese­té­ben gya­ko­ri, hogy a szó­tár nem is­me­ri a hely­ség­ne­vet, ezért hi­bá­nak mi­nő­sí­ti azt. Ez azon­ban ré­gi és/­vagy szé­les kör­ben is­mert ma­gyar te­le­pü­lés­ne­vek ese­té­ben két­sze­re­sen is bán­tó­an hat­hat, hi­szen ilyen­kor az elem­ző aka­rat­la­nul is a ma­gyar nyelv olyan ele­me­it stig­ma­tizál­ja, ame­lyek an­nak „tel­jes jo­gú” és gyak­ran hasz­nált ré­szei és a ma­gyar kul­tú­ra alap­ele­mei, pl. Huszt9, Ilos­va stb.
Nyil­ván­va­ló, hogy a ma­gyar nyelv el­len­őr­zé­sé­re leg­szé­le­sebb kör­ben hasz­nált nyelv­he­lyes­ség-el­len­őr­ző alap­szó­tá­ra ki­egé­szí­té­sek­re szo­rul. Az azon­ban nem vár­ha­tó el a ma­gyar­or­szá­gi nyel­vé­szek­től, hogy több­let­ener­gi­át be­le­fek­tet­ve fel­gyűjt­sék ter­mé­ke­ik­be a ma­gyar nyelv ha­tá­ron tú­li ele­me­it, va­la­mint meg­fe­le­lő­en kó­dol­ják is azo­kat.
Azon kí­vül, hogy az alap­szó­tár bő­ví­té­se ár­nyal­tab­bá ten­né a he­lyes­írás-el­len­őr­ző mun­ká­ját, tel­jes mér­ték­ben ele­mez­he­tő­vé ten­né a Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz ha­tá­ron tú­li alko­r­puszát is, amely a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­tok sa­já­tos le­xi­kai ele­mei mi­att je­len­leg csak rész­ben ele­mez­he­tő.
A szó­tár bő­ví­té­se az MTA ha­tá­ron tú­li iro­dá­i­nak mun­ka­tár­sa­i­tól két mun­ka­fo­lya­ma­tot kö­ve­tel meg:
1. Az alap­szó­tár­ba be­ke­rü­lő sza­vak ki­vá­lasz­tá­sa: A vá­lo­ga­tás köz­ben mind­vé­gig szem előtt kell tar­ta­ni, hogy a szö­veg­szer­kesz­tőt hasz­ná­lók leg­na­gyobb ré­sze ma­gyar­or­szá­gi ma­gyar be­szé­lő, il­let­ve hogy az elem­zőt – írott szö­ve­gek elem­zé­se mi­att – ma­ga­sabb fo­kú nor­ma­vi­tás­sal ren­del­ke­ző nyelv­vál­to­za­tok (szö­ve­gek) elem­zé­sé­re ter­vez­ték (nem pe­dig nyelv­já­rá­si vagy re­gi­o­ná­lis köz­nyel­vi szö­ve­gek­re). Eb­ből az kö­vet­ke­zik, hogy a fel­gyűj­tött sza­vak­nak túl kell mu­tat­ni­uk a region­al­itá­son (leg­ide­á­li­sabb eset­ben olyan szó kell, hogy le­gyen, ame­lyet az egész ma­gyar be­szé­lő­kö­zös­ség­ben azo­no­san hasz­nál­nak) és – leg­alább az ál­la­mi vál­to­za­tok szint­jén – nor­ma­tív­nak kell len­ni­ük. Ezek­nek a kö­ve­tel­mé­nyek­nek leg­in­kább a tu­laj­don­ne­vek, il­let­ve a köz­ve­tett köl­csön­sza­vak (ide­gen nyelv­ből át­vett ide­gen sza­vak: cujka, zmizik stb.) fe­lel­nek meg. Az utób­bi­ak­nak nagy sze­re­pük van az ös­­sze­tett sza­vak elem­zé­sé­ben, mi­vel csak azt az ös­­sze­tett szót fo­gad­ja el jó­nak a prog­ram, ame­lyet vagy tar­tal­maz a szó­tár vagy ös­­sze tud­ja rak­ni már meg­lé­vő ele­mek­ből. Ter­ve­ink­ben a kö­vet­ke­ző tí­pu­sú sza­vak gyűj­té­sét kí­ván­juk meg­va­ló­sí­ta­ni:
a) föld­raj­zi ne­vek;
b) sze­mély­ne­vek – csa­lád­ne­vek;
c) sze­mély­ne­vek – utó­ne­vek;
d) köz­vet­len köl­csön­sza­vak;
e) ma­gyar ere­de­tű köz­ve­tett köl­csön­sza­vak.
2. Az ös­­sze­gyűj­tött anyag elő­kó­do­lá­sa: A gon­do­san meg­fo­gal­ma­zott kö­ve­tel­mé­nyek sze­rin­ti gyűj­tés utá­ni kö­vet­ke­ző lé­pés a kész szó­lis­ták kó­do­lá­sa. Ez alap­ján ké­sőbb min­den szó ho­va­tar­to­zá­sa egyér­tel­mű­sít­he­tő lesz, va­la­mint a mor­fo­ló­gi­ai kó­dok alap­ján a sza­vak az elem­ző­be is be­épít­he­tők lesz­nek. An­nak il­luszt­rá­ci­ó­ja­ként, hogy ho­gyan néz ki a szó­tár, ve­gyük az őr­vi­dé­ki Sopronkeresztúr pél­dá­ját (ezt egyéb­ként ér­te­lem­sze­rű­en az elem­ző pi­ros­sal alá­húz­za, hi­szen az adott topon­imát a szó­tár nem is­me­ri): Sopron+k­ereszt+úr [FN|pse];nyv:őv;rp;. Je­löl­ni kell az ös­­sze­té­te­li ha­­tárt (a + jel je­lö­li), mi­vel a szó vé­gi tol­da­lé­ko­lás­kor mó­do­sul­hat a szó­test (a szó ele­jé­re ke­rü­lő ele­mek ese­té­ben ter­mé­sze­te­sen nem); hogy mi­lyen szó­fa­jú az elem (FN, az­az fő­név); a szó­fa­jon be­lül mi­lyen al­tí­pus­ba tar­to­zik (pse, az­az hely­név); me­lyik ál­la­mi vál­to­zat ele­me (nyv:őv, az­az őr­vi­dé­ki nyelv­vál­to­zat); szó­tő-e vagy tol­da­lék (rp, az­az jobb­ra bő­vü­lő, te­hát szó­tő); il­let­ve fő­ne­vek ese­té­ben az egyes szám har­ma­dik sze­m­éjű alak­ját is (a pél­dá­ban nincs sem­mi, az­az Sopronkeresztúr­ja a kí­vánt alak); sop­ron+kereszt+úr@i[MN|pse];nyv:őv;rp: Ess_Ul; – a mel­lék­ne­vek ese­té­ben több­let­ként je­löl­ni kell a mel­lék­név essivusi alak­ját (ESS_Ul, az­az sopronkeresztúri­ul).
A mun­ka el­ső fá­zi­sá­ban a hely­ne­ve­ket és az egyéb föld­raj­zi ne­ve­ket (fo­lyó­ne­vek, táj­ne­vek stb.) gyűjt­jük ös­­sze, s a gyűj­tés, il­let­ve kó­do­lás ta­pasz­ta­la­ta­i­ból ki­in­dul­va foly­tat­juk majd a sze­mély­ne­vek­kel és a köz­ne­vek­kel. A köz­ne­vek­re vo­nat­ko­zó­an már van­nak ta­pasz­ta­la­taink, ame­lyet a ht-lista (az­az „a ha­tá­ron tú­li vo­nat­ko­zá­sú ma­gyar szó­kész­le­ti ele­mek lis­tá­ja”) ös­­sze­ál­lí­tá­sá­val sze­rez­tünk és szer­zünk fo­lya­ma­to­san. Fur­csa hely­zet, de ez eset­ben nem is a gyűj­tés, ha­nem a vá­lo­ga­tás je­lent majd prob­lé­mát. Bár a Mor­pho­Lo­gic Kft.-től sza­bad ke­zet kap­tunk az anyag men­­nyi­sé­gi és mi­nő­sé­gi kri­té­ri­u­ma­i­nak meg­ha­tá­ro­zá­sá­ra, még­sem ve­he­tünk fel min­den szót, hi­szen egye­bek mel­lett azt is fi­gye­lem­be kell ven­nünk, hogy az egyes ha­tá­ron tú­li szó­cso­por­tok a ma­gyar­or­szá­gi­ak­hoz vi­szo­nyít­va ne le­gye­nek túl­rep­re­zen­tál­va – az pél­dá­ul na­gyon fur­csa len­ne, ha a prog­ram szó­tá­ra több ha­tá­ron tú­li hely­ség­ne­vet tar­tal­maz­na, mint ma­gyar­or­szá­git.
A Word-szó­tár ha­tá­ron tú­li anya­gá­nak el­ké­szí­té­se je­len­leg nincs szi­go­rú ha­tár­idő­höz köt­ve. A ha­tár­idők bi­zony­ta­lan­sá­gá­nak egyik oka az al­kal­ma­zás meg­va­ló­sí­tá­sá­ban rej­lik: még nincs tisz­táz­va, mi­lyen for­má­ban kap­cso­lód­jon a ha­tá­ron tú­li le­xi­kon a köz­pon­ti szó­tár­hoz: el kell dön­te­ni, hogy kü­lön mo­dul­ként vagy a köz­pon­ti szó­tár szer­ves ré­sze­ként va­ló­sul­jon-e meg. A ha­tár­időt be­fo­lyá­so­ló má­sik té­nye­ző a ku­ta­tó­há­ló­zat túl­ter­helt­sé­ge; mi­vel az amúgy is sok mun­kát igény­lő kö­zös ku­ta­tá­sok mel­lett min­den ku­ta­tó­ál­lo­más és ku­ta­tó­hely a sa­ját ré­gi­ó­já­ban egyéb (pl. ok­ta­tói vagy szer­ve­zői) te­vé­keny­sé­get is el­lát, ezért a vir­tu­á­lis há­ló­za­tot al­ko­tó sze­mé­lyek túl­ter­hel­tek (eb­ben an­nak is sze­re­pe van, hogy a meg­ma­ra­dá­sért fo­lyó küz­de­lem­ben fo­lya­ma­to­san pá­lyáz­ni kell, il­let­ve a pénz­szer­zés­nek egyéb mód­ja­it is ki kell hasz­nál­ni).

6. Ös­­sze­fog­la­lás

Há­rom­évi mun­ka után el­ké­szült a Kár­pát-me­den­cei ma­gyar nyel­vi kor­pusz ha­tá­ron tú­li alko­r­pusza. An­nak el­le­né­re, hogy az anyag csu­pán tö­re­dé­ke a ma­gyar­or­szá­gi­nak, még­is je­len­tős elő­re­lé­pés a ma­gyar nyel­vű kor­pu­szok te­rén, hi­szen ez­zel a Nyelv­tu­do­má­nyi In­té­zet­ben olyan kor­puszt al­kot­tak, amely már a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­to­kat is ma­gá­ban fog­lal­ja, le­he­tő­vé té­ve ez­zel akár egy ös­­sze­ha­son­lí­tó ku­ta­tást is.
A Kmm­nyk lét­re­jöt­té­vel azon­ban még nem zá­rul­tak le a mun­ká­la­tok. Egy­elő­re két kér­dés ma­radt meg­vá­la­szo­lat­la­nul. Az élő­nyel­vi szö­ve­gek át­írá­sa és an­no­tá­lá­sa még min­dig nem zá­rult le, hát­ra van még a mun­ka ös­­sze­han­go­lá­sa, az­az a már el­ké­szí­tett le­jegy­zé­sek egy­sé­ge­sí­té­se, il­let­ve an­no­tá­lá­sa. Ez azt is je­len­ti, hogy a kor­pusz­épí­tés foly­ta­tó­dik, vi­szont a to­váb­bi lé­pé­sek egy­elő­re nem egé­szen vi­lá­go­sak. Kér­dé­ses, hogy a kö­zel­jö­vő­ben ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­to­kat tar­tal­ma­zó Kmm­nyk ha­tá­ron tú­li anya­gát érin­tő mun­ká­la­tok foly­ta­tód­nak-e. En­nek el­dön­té­se fő­ként Vára­di Ta­má­son és az MTA Nyelv­tu­do­má­nyi In­té­ze­té­nek Nyelv­tech­no­ló­gi­ai Osz­tá­lyán mú­lik, hi­szen a pro­jek­tet szak­ma­i­lag ők irá­nyít­ják. Bár­hogy ala­kul­jon is a pá­lyá­zat jö­vő­je, fel­té­te­lez­he­tő, hogy a ku­ta­tó­ál­lo­má­sok to­vább­ra is foly­tat­ják az anya­gok gyűj­té­sét, mi­vel mind a négy ku­ta­tó­ál­lo­más a sa­ját ré­gi­ó­já­ban el­in­dí­tot­ta re­gi­o­ná­lis kor­pu­szá­nak épí­té­sét, il­let­ve pá­lyá­zik a Word­jec­t-pro­jekt el­ké­szí­té­sé­re. Ha azon­ban az MTA Nyelv­tu­do­má­nyi In­té­ze­té­nek fel­ügye­let­ében nem va­ló­sul meg egy újabb kö­zös pro­jek­tum, ak­kor el­kép­zel­he­tő, hogy a ku­ta­tó­ál­lo­má­so­kon fo­lya­ma­to­san gyű­lő anyag egy­más­tól el­té­rő for­má­jú lesz. (Bár egy­elő­re az sincs ki­zár­va, hogy a ké­sőb­bi­ek­ben más szak­mai fel­ügye­let alatt egy má­sik pro­jek­tet hoz­za­nak lét­re. En­nek el­dön­té­sé­ben va­ló­szí­nű­leg víz­vá­lasz­tó sze­re­pe lesz a Word­jec­t-pro­ject­nek, hi­szen ki­de­rül, hogy a há­ló­zat ön­erő­ből vég­hez tud-e vin­ni egy ilyen mé­re­tű ku­ta­tást és fej­lesz­tést.)
A Ha­tá­ron tú­li ma­gyar kor­pusz meg­va­ló­su­lá­sa a kez­de­ti el­kép­ze­lé­sek­hez ké­pest mó­do­sult. A vál­to­zás két alko­r­puszt, a hi­va­ta­li nyel­vet és a sze­mé­lyes köz­lést tar­tal­ma­zót érin­tet­te. Bár a hi­va­ta­li szö­ve­gek gyűj­té­se ed­dig is fo­lya­ma­tos volt, ám mi­vel a ma­gyar nyelv ki­sebb­sé­gi hely­zet­ben csak má­sod­la­gos sze­re­pű, s a hi­va­ta­los szfé­rá­ban hasz­ná­la­ta – nyelv­tör­vé­nyek ál­tal – kor­lá­to­zott, nem va­ló­szí­nű, hogy a Ha­tá­ron tú­li ma­gyar kor­pusz­ban va­la­ha is el­érik a kí­vánt ará­nyo­kat (már csak azért sem, mert a tu­do­má­nyos, szép­iro­dal­mi és pub­li­cisz­ti­kai alko­r­pusz na­gyobb mér­ték­ben bő­vül, így az ab­szo­lút szá­mok is fo­lya­ma­to­san nö­vek­sze­nek, s egy­ben el­ér­he­tet­len­né vál­nak).
Az NKFP ál­tal tá­mo­ga­tott pá­lyá­zat 2005. ok­tó­ber vé­gén járt le. A kor­pusz el­ső nyil­vá­nos be­mu­ta­tó­já­ra 2005. no­vem­ber 22-én a Ma­gyar Tu­do­mány Nap­ja al­kal­má­ból ren­de­zett elő­adás­so­ro­zat ke­re­tén be­lül ke­rült sor. Sze­mély sze­rint csak re­mél­ni tu­dom, hogy mi­nél szé­le­sebb kör­ben el­ter­jed, s mi­nél töb­ben ki­hasz­nál­ják majd az ál­ta­la nyúj­tott ku­ta­tá­si és ok­ta­tá­si le­he­tő­sé­ge­ket.

Fel­hasz­nált iro­da­lom

Be­reg­szá­szi Anikó–Csernicskó Ist­ván 2004. Ma­gyar ér­tel­me­ző ké­zi­szó­tár: (majd­nem) min­den ma­gyar szó­tá­ra. In Be­reg­szá­szi Anikó–Csernicskó Ist­ván: …itt men­­nyit ér a szó? Írá­sok a kár­pát­al­jai ma­gyar nyelv­hasz­ná­lat­ról. Ung­vár, PoliPrint, 127–136. p.
Biber, Dou­glas 1993. Rep­re­sen­ta­tive­ness in cor­pus de­sign. Lit­er­ary and Lin­guis­tic Com­pu­ting, 8. évf. 4. sz. 243–257. p.
Cser­nic­skó Ist­ván 2004. A ma­gyar nem­ze­ti nyelv­stra­té­gi­á­ról, mu­lasz­tá­sa­ink­ról, fel­ada­ta­ink­ról és vá­gya­ink­ról. In Be­reg­szá­szi Anikó–Csernicskó Ist­ván (sz­erk.) Ta­nul­má­nyok a kár­pát­al­jai ma­gyar nyelv­hasz­ná­lat­ról. Ung­vár, PoliPrint–Kárpátaljai Ma­gyar Ta­nár­kép­ző Fő­is­ko­la, 106–116. p.
Cser­nic­skó István–Papp György–Péntek János–Szabómihály Gi­zel­la 2005. A szom­szé­dos or­szá­gok ma­gyar­nyel­vi ku­ta­tó­ál­lo­má­sa­i­ról. Ma­gyar Nyelv, 101. évf. 1. sz. 105–113. p.
Em­lé­kez­te­tő az MTA ku­ta­tó­ál­lo­má­sa­i­nak meg­be­szé­lé­sé­ről 2002. Kéz­irat. Bu­da­pest, MTA Et­ni­kai-nem­ze­ti Ki­sebb­ség­ku­ta­tó In­té­zet (2002. 05. 29.).
Em­lé­kez­te­tő a nyel­vi iro­dák mű­hely­ta­lál­ko­zó­já­ról 2004. Kéz­irat. Illye­fal­va (2004. jú­li­us 12–17.).
Kiefer Fe­renc 2005. Le­he­tő­ség és szük­ség­sze­rű­ség. Ta­nul­má­nyok a nyel­vi mo­da­li­tás kö­ré­ből. Bu­da­pest, Tin­ta Könyv­ki­adó.
Kol­láth An­na 2005a. El­ső fe­je­zet a ki­sebb­sé­gi ma­gyar nyelv­hasz­ná­lat ös­­sze­ha­son­lí­tó vizs­gá­la­tá­ból. Határ­ta­lanítás: előz­mé­nyek és ered­mé­nyek – szán­dék és meg­va­ló­su­lás. In Lanstyák Ist­ván–Meny­hárt Jó­zsef (sz­erk.) Ta­nul­má­nyok a két­nyel­vű­ség­ről III. Po­zsony, Kalligram Könyv­ki­adó, 15–31. p.
Kol­láth An­na 2005b. Fe­je­ze­tek a ki­sebb­sé­gi ma­gyar nyelv­hasz­ná­lat ös­­sze­ha­son­lí­tó vizs­gá­la­tá­ból. Ma­gyar Tu­do­mány, 49. évf. 2. sz. 156–164. p.
Kol­láth Anna–Szoták Szilvia–Žagar-Szentesi Or­so­lya 2005. Ki­egé­szí­tés „A szom­szé­dos or­szá­gok ma­gyar­nyel­vi ku­ta­tó­ál­lo­má­sai” cí­mű be­szá­mo­ló­hoz. Ma­gyar Nyelv, 101. évf. 3. sz. 371–377. p.
Lanstyák Ist­ván 2004. Élő­nyel­vi szö­ve­gek fone­matikai el­vű át­írá­sa. In Be­reg­szá­szi Anikó– Cser­nicskó Ist­ván: „… itt men­­nyit ér a szó? Írá­sok a kár­pát­al­jai ma­gyar nyelv­hasz­ná­lat­ról”. Ung­vár, PoliPrint, 181–185. p.
Lanstyák Ist­ván 2005. Határ­ta­lanítás (a Ma­gyar ér­tel­me­ző ké­zi­szó­tár 2. ki­adá­sa után, 3. ki­adá­sa előt­t). In Már­ton­fi Attila–Papp Kornélia–Slíz Ma­ri­ann (sz­erk.): 101 írás Pusz­tai Fe­renc tisz­te­le­té­re. Bu­da­pest, Ar­gu­men­tum, 179–286. p.
Lanstyák Ist­ván–Meny­hárt Jó­zsef 2001. A Gram­ma Nyel­vi Iro­da (av­agy: Lesz-e álom­ból va­ló­ság?). Fó­rum Tár­sa­da­lom­tu­do­má­nyi Szem­le, 3. évf. 3. sz. 189–196. p.
Novák At­ti­la 2003. Mi­lyen a jó hu­mor? In Ale­xin Zoltán–Csendes Dó­ra (sz­erk): Ma­gyar Szá­mí­tó­gé­pes Nyel­vé­sze­ti Kon­fe­ren­cia (MSZNY 2003). Sze­ged, Sze­ge­di Tu­do­mány­egye­tem, 138–145. p.
Novák At­ti­la–M. Pin­tér Ti­bor (megj. alat­t). Mi­lyen a még jobb Hu­mor? In Ale­xin Zoltán–Csendes Dó­ra (sz­erk.): IV. Ma­gyar Szá­mí­tó­gé­pes Nyel­vé­sze­ti Kon­fe­ren­cia (MSZNY 2006). Sze­ged, Sze­ge­di Tu­do­mány­egye­tem, 60–69. p.
Pin­tér Ti­bor 2003. Amit a mo­dern nem­ze­ti kor­pu­szok­ról tud­ni kell. Fó­rum Tár­sa­da­lom­tu­do­má­nyi Szem­le, 4. évf. 3. sz. 71–85. p.
Pén­tek Já­nos 2004. A ma­gyar nyelv szó­tá­rai, nyelv­ta­nai, ké­zi­köny­vei és a ha­tá­ron tú­li ma­gyar nyelv­vál­to­za­tok. Az MTA ha­tá­ron tú­li ku­ta­tó­ál­lo­má­sa­i­nak fel­ada­ta­it is el­lá­tó nyel­vi iro­dák ál­lás­fog­la­lá­sa. Ma­gyar Tu­do­mány, 48. évf. 7. sz. 724–727. p.
Rajs­li Ilo­na 2004. Út­mu­ta­tó a kor­pusz­ba épí­ten­dő élő­nyel­vi szö­ve­gek le­jegy­zé­sé­hez. In Papp Györ­gy (sz­erk.): Mi ilyen nyelv­ben élünk. Nyelv­szo­ci­o­ló­gi­ai és kor­pusz­vizs­gá­la­ti ta­nul­má­nyok. Sza­bad­ka, Ma­gyar­ság­ku­ta­tó Tu­do­má­nyos Tár­sa­ság, 65–79. p.
Szoták Szil­via 2005. Fe­je­ze­tek a ki­sebb­sé­gi ma­gyar nyelv­hasz­ná­lat ös­­sze­ha­son­lí­tó vizs­gá­la­tá­ból. Határ­ta­lanítás; őr­vi­dé­ki sza­vak ma­gyar­or­szá­gi szó­tá­rak­ban. In Kemény­fi Ró­bert (sz­erk.): Oszt­rák for­rá­sok – ma­gyar ku­ta­tók. Öster­re­ichis­che Quellen – Unga­ri­sche Forscher. Deb­re­cen–Bécs, Deb­re­ce­ni Egye­tem Nép­raj­zi Tanszéke–Colle­gium Hun­gar­icum.