A 2011. évi népszámlálás lakossági mikroadatai

A 2011. évi szlovákiai népszámlálás egyik jellegzetessége, hogy a (cseh)szlovák népszámlálások történetében a hivatalosan közzétett adatok mellett első alkalommal váltak hozzáférhetővé lakossági mikroadatok is. A rendszerváltást megelőző évtizedekben viszonylag korlátozott terjedelemben kerültek nyilvánosságra népszámlálási adatok. Ezek döntő többsége országos, kerületi, esetleg járási szintű adatokat tartalmazott. Az 1991-es adatok többsége még nyomtatott változatban vált hozzáférhetővé, de egy kisebb része már elektronikus változatban is elérhető volt. A 2001. évi népszámlálási adatok nagy része pedig már elektronikus változatban is hozzáférhető. Azaz a 2001. évre vonatkozólag jelentős számú településszintű változó adatsorai is nyilvánossá váltak. A 2011. évi községsoros adatállományok, azaz községsoros adatbázisok 2927, a lakossági mikroadatokat tartalmazó adatbázis 5 399.333 rekordot, személy adatait tartalmazza. A községsoros adatállomány 2927 rekordja kissé magasabb a szlovákiai helységek számánál, mivel Pozsony és Kassa városok adatait nem összesítve, hanem városrészei szerinti bontásban tartalmazza. (Pozsony 17, Kassa 22 városrészre tagolódik). A 2011. évi lakossági mikroadatbázis rekordjainak a száma 2297 fővel magasabb Szlovákia lakónépességének számánál (5 397 036 fő), mivel a jelenlévő népesség száma 2011-ben kissé magasabb a lakónépességénél.
A 2011. évi népszámlálás nyomán közzétett lakossági mikroadatok valamennyi lekérdezett személy adatait tartalmazzák. A mikroadatokat tartalmazó adatbázis azonban nem tartalmazza a népszámlálás összes kérdésére adott válaszok adatait, csak azon változók (kérdések) kerültek be az adatbázisba, amelyek iránt a legnagyobb érdeklődés mutatkozott a szakmai és a laikus közönség részéről. A lakossági mikro­adatbázissal kapcsolatos információk egy linken elérhetők.1
A mikroadatokhoz való hozzáférés elsősorban az egyetemek és főiskolák, illetve a tudományos intézetek, szervezetek számára biztosított bizonyos feltételek mellett. A mikroadatok anonimizáltak. Azaz különböző statisztikai eljárások révén a Szlovák Statisztikai Hivatalban minimalizálták az egyes statisztikai egységek (személyek) be­azonosításának lehetőségét. Ez együtt jár bizonyos mértékű, igen alacsony szintű információveszteséggel is. Az anonimizálási eljárás következtében bekövetkezett adatmódosulások településszinten nem okoztak torzulást az egyes változók összetételében.
A mikroadatbázis 28 változó adatait tartalmazza, mérete 400 GB.
A változók megnevezéseit a Függelék tartalmazza. Az egyes változók kategóriáinak megnevezése, tartalma, az adatbázis mellékletét képezi.
A mikroadatok jelentős hozadéka, hogy az interetnikai, nemzetiségi, regionális folyamatok, változások vizsgálatához is felhasználható, mivel a lakosság nemzetiségi, anyanyelvi és felekezeti hovatartozására vonatkozó adatokat is tartalmaz.
Felmerül a kérdés, hogy milyen új lehetőségeket biztosít a lakossági mikroadatbázis használata a különböző területeken dolgozó kutatóknak, doktoranduszoknak. Említettük, hogy a korábbi népszámlálások nyomán táblázatok, illetve kis számú változót tartalmazó községsoros adatállományok váltak hozzáférhetővé. A publikált adatokon kívül lehetőség volt bizonyos keretek között adattáblákat, adatállományokat is rendelni térítés ellenében. Ily módon legalább részben túl lehetett lépni az igencsak szűkre szabott, hivatalos adatkínálaton.
A publikált adatok alapján többnyire csak kis számú, általában 2-3 változó kapcsolatát volt lehetséges vizsgálni. Ezek a változók is általában országos, illetve járási szintű, legritkábban településszintű adatokhoz való hozzáférést biztosítottak.
Ezzel szemben a népszámlálás kérdéseiből képzett változóknak igen nagyszámú kombinációja lehetséges. A lakossági mikroadatok egyik fő hozadéka, hogy több változó együttes vizsgálatát teszik lehetővé. A korábbi népszámlálások alkalmával a megkérdezettek iskolai végzettség, felekezeti, esetleg nemzetiségi hovatartozás szerinti adatait publikálták települési vagy járási szinten.
Arra már alig akadt lehetőség, hogy ezek belső összefüggéseit struktúráját, mintázatát is megismerjük. Például településszinten a különböző nemzetiségű lakosság felekezet szerinti, végzettségi vagy foglalkozási csoportok szerinti összetételét nem volt lehetséges vizsgálni. Hasonló módon nem volt lehetséges a településeken belüli belső szerkezeti összefüggések feltárása sem. Az idén közzétett mikroadatok lehetővé teszik akár egy adott településen belül is feltárni az egyes felekezetek, nemzetiségek vagy egyéb társadalmi csoportok végzettségi mutatóit, például korösszetételük függvényében. Hasonló módon lehetséges akár településszinten is elemezni a migrációs folyamatokat: vizsgálható, hogy egy konkrét településen élők honnan, mikor költöztek az adott településre. De összehasonlíthatjuk az egyes térségekbe, településekre, járásokba irányuló vándorlás összetételét más mutatóik szerint is: honnan (járások), mikor (5 éves korcsoportok), nemzetiség, felekezet, foglalkozás stb. szerint is. Az adatbázis közvetve lehetővé teszi az elvándorlók összetételének vizsgálatát is, azt is, hogy egy adott járásból milyen irányú mozgásokra került sor.
A mikroadatbázist a Szlovák Statisztikai Hivatal CSV formátumban tette hozzáférhetővé. A CSV formátumú adatállományok a társadalomtudományi kutatásoknál alkalmazott SPSS programcsomag segítségével konvertálhatók, illetve feldolgozhatók. Az SPSS programcsomag részben helyettesíthető egy hasonló tulajdonságokkal rendelkező ingyenes PSPP programmal is.
Az adatok feldolgozásával kapcsolatos észrevételek:
Az adatbázis a kérdőív kérdéseire adott válaszokat tartalmazza többnyire numerikus változók formájában. Az egyes vizsgálatokhoz igen gyakran ezekből szükséges segédváltozókat képezni, melyek pld. településszintű jellemzőket tartalmaznak. Így az egyes vizsgálatoknál különböző társadalomszerkezeti mutatók, kategóriák szerinti elemzésekre lehet szükség.
Igény mutatkozhat településnagyság, falu-város, a helységek etnikai, felekezeti, vagy gazdasági megoszlása szerinti jegyeket is tekintetbe venni, mivel az ilyen jellegű vizsgálatok a közzétett adatok alapján közvetlenül nem lehetségesek. A segédváltozók a korábban közzétett községsoros adatállományok adatai alapján alakíthatók ki. Az adatbázis méretéből adódik, hogy az egyes parancsok végrehajtása a megszokottnál sokkal hosszabb ideig tart. Az egyes segédváltozókat képző parancssorok lefuttatása a program korábbi vagy újabb változatától függően akár több (tíz)percet is igénybe vehet. Segédváltozók kialakítása szükséges lehet azokban az esetekben is, amikor az egyes változók nagyszámú kategóriáját kevesebb összevont kategóriával szeretnénk helyettesíteni. Pl.: ha a nemzetiség, felekezet, gazdasági ágazatok több mint 20 kategóriát tartalmazó változóit szeretnénk néhány kategóriába sűríteni.
A lakossági mikroadatbázis adataival történő vizsgálatoknak a korábban közzétett népszámlálási adatokhoz hasonlóan van egy jelentős korlátja: egyes változók esetében igen magas a nem válaszolók, ismeretlenek száma. (A nemzetiség esetében 7,0%, a felekezeti hovatartozás 10,6%, az állampolgárság 7,3%, az anyanyelv 7,5%, a leggyakrabban beszélt nyelv a nyilvános érintkezésben 9,5%, a leggyakrabban használt nyelv otthon 13,5%,). Más változók esetében az ismeretlenek aránya ezektől sokkal alacsonyabb (kormegoszlás 0,02%, családi állapot 1,9%, iskolai végzettség 0,7%.) Az ismeretlenek magas aránya az egyes változók esetében azzal a következménnyel jár, hogy a regisztrált (közzétett) adatok jelentős mértékben eltérhetnek a vizsgált változók valós megoszlásától. Az eltérés nagysága bizonyos hibahatárok mellett statisztikai eljárásokkal becsülhető, de az így nyert adatok nem helyettesítik a regisztrált adatokat.
Mindettől függetlenül a lakossági mikroadatbázis alapján végzett elemzések a korábbi időszakban elképzelhetetlennek tűnő kutatási lehetőségeket biztosít a társadalomkutatók számára.

FÜGGELÉK

gyurgyik-fuggelek