Kertesi Gábor
KÉT CIGÁNYVIZSGÁLAT*
(Kritikai elemzés)



"Nem tudom, de nekem ez az adat gyanús!"


1993 õszén, több mint húsz évvel az 1971. évi cigányvizsgálat után, egymással párhuzamosan két nagyobb adatfelvétel készült hazánkban a cigányság helyzetérõl. Az egyik felvétel a Központi Statisztikai Hivatalban készült, a másikat az MTA Szociológiai Intézet munkatársai és az MTA Közgazdaságtudományi Intézet részérõl jelen tanulmány szerzõje készítették közösen1. A KSH-felvétel mintájának alapja az Egységes Lakossági Adatfelvételi Rendszer (ELAR) mintája volt, amelybe - a rendszeres negyedéves munkaerõ-felvételek 1993 õszi hullámának keretében - elsõ ízben bekerült egy a megkérdezett háztartások cigány etnikai hovatartozására vonatkozó kérdés is. A KSH felvételérõl amely a késõbbiekben nemzetiségi felvételként került be a köztudatba - a hivatal munkatársai 1994 nyarán rövid beszámolót adtak közre A cigányság helyzete címmel (Mészáros et al. 1994). Az Akadémia adatfelvételérõl (a továbbiakban: Cigányvizsgálat) - mely a KSH nemzetiségi felvételétõl eltérõen célzottan a cigányság és csakis a cigányság felmérésére törekedett - szintén 1994-ben készült egy rövid összefoglaló jelentés (Kemény-Havas-Kertesi 1994).

Már az elsõ összehasonlításokból kiderült, hogy az adatok között számos tekintetben lényeges eltérések vannak. Ezeknek az eltéréseknek az alaposabb elemzésére az adott alkalmat, hogy a Közgazdaságtudományi Intézet megvásárolta a KSH-tól az ELAR-mintán lekérdezett 1993. szeptember-novemberi munkaerõ-felvétel és a hozzá kapcsolódó nemzetiségi felvétel teljes adatállományát. Az itt következõ tanulmány abból a célból született, hogy részletesen beszámoljon a két adatfelvétel eredményeinek különbségeirõl és e különbségek valószínû okairól. Érvelésemet a lehetõ legnagyobb részletességgel igyekszem dokumentálni. Az alábbi észrevételek kettõs célt szolgálnak: egyrészt ellenõrizhetõ okfejtések segítségével igyekeznek meggyõzni az olvasót a szerzõ álláspontjáról (a Szociológiai Intézet adatfelvételének nagyobb megbízhatóságáról), másrészt igyekeznek eloszlatni a statisztikai adatfelvételekkel kapcsolatos igen általános bizalmatlanságot. Meggyõzõdésem, hogy a statisztikai adatokkal kapcsolatban van helye a racionális diskurzusnak. Ez az írás egy konkrét példán igyekszik bemutatni azt a sokféle - logikai és empirikus - lehetõséget, amely a kutató rendelkezésére áll, ha elfogja a kétely, vajon megbízhat-e ebben vagy abban az adatban.


1. A két minta belsõ eltérései

Mindenekelõtt a legalapvetõbb eltéréseket kell bemutatnunk. Sejtésünket, mely szerint a két minta - fontos társadalmi indikátorokat tekintve - jelentõs mértékben különbözik egymástól, homogenitás-vizsgálatok segítségével próbáljuk igazolni. A társadalomstatisztikai gyakorlatban ilyen alapvetõ változónak számít a háztartásnagyság (vagy egy analóg jelentése indikátor: a háztartásban élõ, eltartott gyermekek száma), a lakóhely, az életkor, a nem és az iskolai végzettség. Az alábbiakban megvizsgáljuk, hogy az ELAR munkaerõ-felvétel cigány almintája és a Szociológiai Intézet cigány mintája statisztikailag azonos populációt reprezentálnak-e a fent említett változók szerinti megoszlások alapján. A nullhipotézis az, hogy azonos populációt reprezentálnak. Vajon a homogenitás-vizsgálatok alapján el kell-e vetnünk a nullhipotézist?2 A következõ oldalakon közölt (1-6.) táblázatokban rendre elvégezzük az említett próbát.













Mielõtt a próbák értékelésébe fognánk, egy elõzetes megjegyzést kell tennünk. A KSH az ELAR-minta egészének reprezentativitását - mind háztartás, mind pedig egyéni szinten - átsúlyozási eljárás alkalmazásával biztosította.3 Errõl a súlyozási eljárásról tanulmányunkban még sok szó esik. Itt most elegendõ annyit megjegyeznünk, hogy mivel a súlyozás erõteljesen befolyásolja a próbák eloszlását, ezért a homogenitás-vizsgálatokat súlyozatlan és súlyozott adatokra egyaránt elvégezzük. Lássuk tehát a próbák eredményeit.

Az 1-6. táblázatok alapján egyértelmûen megállapíthatjuk: a nemek szerinti (4. táblázat), illetve a lakóhely szerinti (3. táblázat) megoszlások kivételével valamennyi változó esetében szignifikáns különbség van a két minta között. A háztartáslétszámban, az eltartott gyerekek számában, a koreloszlásban és az iskolai végzettségben (1., 2., 5., 6. táblázat) megjelenõ - súlyozástól függetlenül - magas próbaértékek egyértelmû bizonyítékát nyújtják annak, amirõl a megoszlások alapján szabad szemmel is bárki könnyen meggyõzõdhet: a két minta belsõ szerkezete jellegzetesen eltér egymástól. A Cigányvizsgálat megoszlásaihoz képest az ELAR-minta cigány almintájában lényegesen kisebb a háztartások mérete, illetve alacsonyabb a háztartásokban élõ eltartott gyerekek átlagos száma; lényegesen nagyobb arányban szerepelnek az idõsebb korcsoportok és lényegesen kisebb arányban a fiatalabb korcsoportok, végül pedig az ELAR-felvételben szereplõ cigány népesség lényegesen iskolázottabb, mint a Cigányvizsgálaté.

Nyilvánvaló, hogy nem mehetünk el szó nélkül ilyen mértékû strukturális különbségek mellett. A további fejezetekben megpróbálunk utána járni ezeknek az eltéréseknek. Elõször a mintavételi eljárások különbségeinek betudható eltéréseket próbáljuk meg számszerûsíteni; majd a meghiúsult kikérdezések eltérõ pótlásának következményeit igyekszünk fölmérni; végül pedig az átlagos gyermekszám, illetve az iskolai végzettség adatok realitását egy külsõ adatforrás - a Mûvelõdési Minisztérium iskolastatisztikái - alapján ellenõrizzük.


2. A mintavételi eljárások különbségeinek következményei

Vajon a két minta közötti, imént feltárt különbségek milyen mértékben vezethetõk vissza a két adatfelvétel során alkalmazott mintavételi eljárások különbségeire? Mielõtt azonban e különbségek következményeit megpróbálnánk fölmérni, röviden ismertetnünk kell a két adatfelvétel során alkalmazott mintavételi eljárások elveit.


Az ELAR felvétel mintavételi eljárása

A mintavétel ismertetésére a leghitelesebb forrást, magukat a minta készítõit hívjuk segítségül. Az alábbi három bekezdés idézet az ELAR munkaerõ-felmérés 1993. évi adatait tartalmazó KSH-kiadványból.

"A munkaerõ-felmérés mintája többlépcsõs, rétegzett minta. A 15000 vagy ennél több fõt számláló településeken a népszámlálási számlálókörzetek voltak az elsõdleges és a lakások a másodlagos mintavételi egységek, míg a kisebb településeken az elsõdleges, másodlagos, illetve utolsó mintavételi egységek rendre a települések, a számlálókörzetek, illetve a lakások voltak. Az 1993 elején végrehajtott mintacsökkentés után a minta 8272 népszámlálási számláló körzetet tartalmaz az ország 555 településén, ami az 1990. január elsejei állapot szerint az összes település mintegy 18 százalékának felel meg.

A munkaerõ-felmérés mintája egyszerû véletlen kiválasztással jött létre a címregiszterbõl, amely - az említett mintacsökkenés óta - a 8272 körzet együttes címanyagából, azaz összesen mintegy 460000 címbõl áll. A munkaerõ-felmérés negyedéves mintája három-három címet tartalmaz minden egyes mintakörzetbõl, egy-egy hónapban azonban a mintakörzeteknek csupán egyharmadát keresik fel az összeírók. A munkaerõ-felmérés mintája alapjában véve lakásminta; ez azt jelenti, hogy a mintába került lakásokban minden háztartásról és minden 15-74 év közötti életkorú személyrõl van gazdasági aktivitásukra vonatkozó információ. 1993-ban a 3*8272 cím általában mintegy 27000 háztartást és 47000 személyt eredményezett a munkaerõ-felmérés negyedéves mintájában. A mintában alkalmazott egyszerû rotációs eljárás szerint bármely háztartás, amely valamilyen idõpontban belép a mintába, hat egymást követõ negyedévben szolgáltat adatokat, majd végleg elhagyja a mintát. Teljes háztartásnál történt meghiúsulás esetén - körzetenként legfeljebb kétszer szabad pótcímeket használni, ezért két egymást követõ idõszak mintájának a közös része általában kisebb, mint 5/6.

A munkaerõ-felmérés mintájának kialakításánál a rétegképzõ ismérvek a következõk voltak: földrajzi egységek, települések nagysága szerinti kategóriák, továbbá lakóövezetek; ez utóbbiakra példák a (történelmi) városközpontok, külvárosok, lakótelepek stb. Az értékösszegek a munkaerõ-felmérés mintájából teljeskörûsítéssel kerülnek becslésre: a mintában megfigyelt értékek alkalmas mintasúllyal történõ szorzása és összegezése után. A jelenlegi mintavételi terv szerint - az 1993. évi mintacsökkentés következtében - a minta 114 utólagos rétegére vonatkozóan kell mintasúlyokat meghatározni, éspedig minden egyes utólagos rétegben a teljes körû lakásszám és a mintában megfigyelt lakások számának hányadosaként. A mintasúlyok képzésénél csak a lakott lakások vehetõk figyelembe, viszont az építésügyi statisztikák az üres lakásokat is tartalmazzák. Ezért a lakott lakások számát a teljes körû lakásszámokon belül mintainformáció alapján becsülni kell. A teljes mintához tartozó mintavételi arány lakásszámokra vonatkoztatva 0,66 százalék. A nem-válaszolásból származó torzítás ellensúlyozására az adatok a továbbvezetett népességszámokkal is korrigálásra kerültek" (Munkaerõ felmérés 1994: 8-9).

Idáig az idézet. Ehhez hozzá kell tennünk a következõket. A szóban forgó ELAR-adatfelvétel úgy állt elõ, hogy az 1993. évi III. negyedéves hullámból a szeptemberi, a IV. negyedéves hullámból pedig az októberi és novemberi megkérdezetteket vonták be. Továbbá: a szeptemberi-októberi-novemberi minta összesen 26604 felkeresett háztartásból állt, ebbõl 22418 esetben lett sikeres kikérdezés. A meghiúsult kikérdezések száma 4186 volt. A cigányság helyzete címû KSH-kiadvány minden adata ennek a 22418 háztartásnak, illetve e háztartásokban lakó egyéneknek a súlyozott ismérveibõl állt elõ.

Ami a cigány alminta reprezentativitását illeti, a kutatási stratégia világos. Mivel a minta területileg (településszinten és annál kisebb aggregációs szinten is) jól lefedi az ország egészét, továbbá kellõen nagy elemszámú, arra számíthatunk, hogy a népesség viszonylag kis hányadát kitevõ kisebbség esetében is kellõ elemszámú, reprezentatív mintát biztosít. Képletesen szólva: a sûrû szövésû háló a kis halakat is befogja. A rövidség kedvéért nevezzük el azt az elvet, amelyen a szóban forgó vizsgálat mintavételi eljárása nyugszik, a "sûrû szövésû háló" elvének.


A Cigányvizsgálat mintavételi eljárása

A Szociológiai Intézet cigányfelvételének - mely a dolog természetébõl adódóan, kizárólag az adott kisebbség felmérésére irányult - ettõl gyökeresen eltérõ mintavételi stratégiát kellett követnie. A legnagyobb problémát természetesen az jelentette, hogy sem a kérdéses sokaság nagyságáról, sem térbeli eloszlásáról nem áll rendelkezésre megbízható, teljes körû, népszámlálási információ. Ennek hiányában a hagyományos mintavételi eljárástól eltérõ utat kellett követnünk. Az eljárás alapelve a következõ volt: az általános iskolai cigány tanulók száma alapján kiválasztott mintavételi körzetekben összeírtuk a fellelhetõ összes cigány háztartást, majd belõlük választottunk véletlen mintát. A rövidség kedvéért nevezzük el azt az elvet a "célzott vizsgálat" elvének. A mintavétel és a kikérdezés 1993 októbere és 1994 februárja között történt. A mintavételi eljárásról részletesebben a következõket mondhatjuk.

A minta a magyarországi cigány háztartások 2 százalékát fogja át. A háztartásokat többlépcsõs, rétegzett mintavétel útján választottuk ki. Elsõ lépésben megkülönböztettük egymástól a községeket és a városokat. A budapesti és miskolci mintavétel külön eljárás szerint történt.

Ami a községeket illeti, a kiindulópontunk a Mûvelõdésügyi Minisztérium 1989/90. tanévi általános iskolai statisztikái voltak, amelyek általános iskolai szinten (az ország kb. 3600 általános iskolájára) tartalmaztak teljes körû cigány tanulószámadatokat. Ezeket az adatokat elõször községi szintre aggregáltuk. Majd, hogy összehasonlítható adatokhoz juthassunk - hiszen a községek mintegy egyharmadában nincs általános iskola -, olyan községbokrokat hoztunk létre, ahol van legalább egy teljes (alsó és fölsõ tagozatot egyaránt tartalmazó) általános iskola, s amelyekre igaz az, hogy az adott községbokorhoz tartozó iskola vagy fölsõ tagozatos iskola nélküli településekrõl kizárólag az adott bokorhoz tartozó más települések általános iskoláiba járnak be tanulni az általános iskolás gyerekek. Ezekrõl a településbokrokról föltételeztük, hogy az általános iskolás cigány tanulókra vonatkozó létszám adataik megfelelõen tükrözik a teljes cigány népesség eloszlását. Ezt követõen a szóban forgó községbokrok cigány tanuló létszám adatai alapján osztályoztuk az említett község bokrokat: megkülönböztettünk cigányok által ritkán, közepesen, illetve sûrûn lakott településbokrokat. Azokat a községbokrokat, ahol egyetlen cigány tanuló sem fordult elõ, kihagytuk a mintából. Ezután pedig eltérõ kulcsok szerint mintát vettünk az érintett községekbõl: takarékossági okokból a cigányok által sûrûbben lakott településekbõl relatíve többet, a ritkábban lakottakból relatíve kevesebbet.

A megyeszékhelyek mindegyike belekerült a mintába, a városok közül véletlenszerûen minden ötödik. A városi településkategóriában a városok kisebb övezetekre bontása úgy történt, hogy a helyi közigazgatás szakembereivel osztályoztattuk - saját ad hoc kritériumaik alapján - a szóban forgó városok önkormányzati választókörzeteit aszerint, hogy azok (megítélésük szerint) cigányok által sûrûn, közepesen vagy ritkán lakottnak számítanak-e. Majd hogy ennek az ad hoc kategorizálásnak az önkényességét kiküszöböljük, mind a megyeközpontok, mind pedig az egyéb városok kategóriáján belül külön-külön megkevertük a sûrû, a közepes és a ritka körzeteket. A keveréssel randomizáltuk a kategorizálás önkényes szempontjait, s így viszonylag homogén elvek alapján kiválasztott választókörzeti mintából választottuk ki - a ritka, közepes és sûrû kategórián belül eltérõ kulcsok szerint - a városokon belüli kisebb mintakörzeteket. Budapest és Miskolc esetében hasonló elvek szerint jártunk el, azzal a különbséggel, hogy mindkét város esetében rendelkezésünkre álltak egy 1992. évi adatfelvételbõl4 teljes körûen az alsó tagozatos általános iskolás cigány gyerekek lakóhely szerinti adatai. Ezeket elõször Budapest esetében városrendezési körzet, Miskolc esetében pedig iskolakörzet szintre aggregáltuk, majd az így kapott városrendezési, illetve iskolakörzeteket ritka, közepes, sûrû típusba soroltuk, végül pedig a községi mintavételhez hasonlóan eltérõ kulcsok alapján mintát vettünk a körzetekbõl.

A munka oroszlánrésze azonban csak ezután következett: a kiválasztott mintakörzetekben (községek esetén: a kiválasztott községbokrokon belül; a városok esetén: a kiválasztott önkormányzati választókörzeteken belül; Budapesten és Miskolcon a kiválasztott városrendezési, illetve iskolakörzeteken belül) a helyi közigazgatás (önkormányzat) és a terepen mûködõ szociális, egészségügyi, oktatási intézmények (iskolák, óvodák, családsegítõk, védõnõk, szociális célú civilszervezetek), valamint cigányszervezetek segítségével teljes körû összeírást5 hajtottunk végre a területen lakó cigány háztartásokról. Ezután meghatározott kulcsok szerint véletlen mintát vettünk az összeírt háztartásokból. Háztartás szintû mintánkat végül is úgy kaptuk meg, hogy a területi egység szintû mintavétel, illetve a területi egységeken belüli mintavétel arányszámainak szorzata mindenütt egységesen 0,02, azaz 2 százalék lett. Budapest esetében 4 százalékos, Miskolc esetében pedig 8 százalékos mintát választottunk annak érdekében, hogy e két város mintája önmagában is elegendõ elemszámú, reprezentatív mintát biztosítson. A minta egésze természetesen csak országosan és településtípusok szerint reprezentatív. Területileg legföljebb nagytérség szinten az (de már megyei szinten nyilvánvalóan nem az).


A két minta összevetése az általános iskolás gyerekszám által definiált körzetsûrûség kategóriái szerint

Felmerülhet a gyanú, hogy a két minta között a homogenitás-vizsgálatok révén feltárt különbségek a mintavételi eljárások különbségébõl adódnak. Ebben a részben ezt a hipotézist fogjuk közelebbrõl szemügyre venni. Hogy ezt megtehessük, a két mintát azonos mintavételi szempontok szerint kell megvizsgálnunk. Minthogy az ELAR-felvétel mintavételi kritériumai elvileg sem alkalmazhatók a Cigányvizsgálat mintájára - az ugyanis a teljes magyarországi népesség területi elhelyezkedése szerinti rétegzést alkalmazott -, csak a fordított eljárással kísérletezhettünk: a Cigányvizsgálat rétegzési szempontjait alkalmaztuk az ELAR-felvétel cigány almintájára.

Mindenekelõtt látnunk kell, hogy a Cigányvizsgálatban alkalmazott rétegzési kritériumnak (az általános iskolás gyerekek területi eloszlásának) az alkalmazása távolról sem problémamentes. Hiszen, ha igaz az - márpedig igaz (lásd a késõbbiekben bemutatott 8-9. táblázatokat) -, hogy a körzetsûrûség pozitív korrelációban áll a háztartáslétszámmal és a háztartásokban élõ eltartott gyermekek számával, akkor a gyermekeknek (g) a teljes népességhez (n) viszonyított aránya (r=g/n) bármely aggregált szinten maga is pozitív függvénye lesz a körzetsûrûség folytonos, elméleti mérõszámának (n-nek). Tömören kifejezve: > 0. Ennek folytán, ha a gyerekszám alapján soroljuk ritka, közepes és sûrû kategóriákba a településeket, akkor az osztályközök határain elõfordulhatnak olyan esetek, hogy egy-egy települést a gyerekszám alapján a sûrû kategóriába sorolunk, holott teljes népessége alapján a közepes kategória fölsõ sávjába kerülne; vagy a gyerekszám alapján a közepes kategóriába sorolunk, holott teljes népessége alapján a ritka kategória fölsõ sávjába kerülne. Vajon mérõmûszerünknek ez a hibája milyen mértékben felelõs a két minta társadalmidemográfiai indikátorainak nagymérvû eltéréséért? Operacionálisan ez két kérdés tisztázását jelenti: 1. Ha mindkét mintára ugyanazt a mintavételi eljárást alkalmazzuk, mekkora különbséget találunk? 2. A mintavételi eljárások különbségének betudható különbség milyen mértékben magyarázza a homogenitás-vizsgálatok által feltárt jelentõs strukturális különbségeket a két minta társadalmi-demográfiai indikátorai között? A lehetséges 3. kérdést - azt ugyanis, hogy a mintavételi eljárások különbségének betudható eltérések milyen mértékben vezethetõk vissza külön-külön a két mintavételi eljárás hibáira nem tudjuk megvizsgálni. A hatások ugyanis aligha választhatók szét. Ennek hiányában föltesszük - bár nem engedjük meg -, hogy a mintavételbõl adódó eltérések egyedül a Cigányvizsgálat rétegzési kritériumának torzító hatásaira vezethetõk vissza.

A Cigányvizsgálat rétegzési szempontját oly módon alkalmazhatjuk az ELAR-felvétel mintájára, hogy az általános iskolai statisztikákban szereplõ cigány gyerekek eloszlása alapján elkészített településtipológiának - mely cigányok által ritkán, közepesen sûrûn, illetve sûrûn lakott településeket különböztet meg - a kódjait alkalmazzuk az ELAR-felvételben szereplõ településekre. Minthogy a Cigányvizsgálat mintavételi eljárása során ezt a kritériumot csak a községi almintára alkalmaztuk, a tesztet is erre a részsokaságra6 szûkítettük le.7 Elsõként (ez a fent említett 1. kérdés) arra vagyunk kíváncsiak, hogy vajon a háztartások eloszlása érdemleges módon eltér-e egymástól a két mintában a szóban forgó rétegképzõ ismérv szerint.

A következõket találtuk. Az ELAR-minta 755 (súlyozva: 120107) cigányháztartásából 484 (súlyozva: 69886) háztartás került a szóban forgó községi almintába. A Szociológiai Intézet Cigányfelvételének 1931 háztartásából pedig 1161 háztartás. Az ELAR esetében ez a súlyozott háztartásminta 58,19 százalékának, a Cigányvizsgálat esetében pedig a minta 60,12 százalékának felel meg. Az eltérés nem mondható túlságosan nagynak. Lényegesen fontosabb szempont azonban a két minta - mondjuk így: körzetsûrûség szerinti - belsõ összetétele. A teszt ugyanis erre irányul. A 7. táblázat mutatja a háztartások eloszlását az általunk használt településkategóriák szerint.



A megoszlások - ahhoz képest, hogy a két adatfelvétel tökéletesen különbözõ mintavételi eljárással készült - meglepõen hasonlítanak egymásra. A ritka településkategórián belül gyakorlatilag nincs eltérés, ahol pedig különbségeket találunk, ott annak mértéke nem éri el a 3 százalékot. A Cigányvizsgálat községi almintájában 2,8 százalékkal nagyobb arányban fordulnak elõ a sûrû körzetekben lakó cigány háztartások, az ELAR-minta községi almintájában pedig 2,9 százalékkal nagyobb valószínûséggel fordulnak elõ a közepes településkategóriába tartozó háztartások. Intuitíve is látszik, hogy ilyen mérvû különbségekbõl aligha adódhatnak olyan mértékû strukturális különbségek, mint amilyeneket az 1. rész homogenitás-vizsgálatai révén megállapítottunk.

Ez utóbbi intuitív megállapításunkat azonban empirikusan is tesztelnünk kell. Ez természetesen nem más, mint a fentebb említett 2. számú tisztázandó probléma. A minták körzetsûrûség szerinti eltérései azért befolyásolhatják a kritikus társadalmi-demográfiai indikátorok (háztartásnagyság, gyerekszám, életkor, iskolai végzettség) átlagos értékeit, illetve megoszlásait, mivel várhatóan szoros korrelációban állnak velük. Mint az alábbiakban megmutatjuk, valóban ez a helyzet. Nem közömbös azonban, hogy a két minta körzetsûrûség szerinti összetételének eltérései - az említett szoros korrelációk folytán - milyen mértékben változtatnák meg az egyik vagy a másik minta társadalmi-demográfiai indikátorainak átlagos értékeit vagy megoszlásait.

A tesztet természetesen továbbra is csak a 15000 fõnél kisebb lélekszámú községek kategóriájára tudjuk elvégezni. A teszt abból áll, hogy megvizsgáljuk, milyen következményekkel jár az, ha az ELAR-minta körzetsûrûség szerinti átlagos háztartásnagyság, gyerekszám, életkor adatait, valamint iskolai végzettség szerinti megoszlásait a Cigányvizsgálat körzetsûrûség szerinti megoszlásaival súlyozzuk, illetve, ha a Cigányvizsgálat mintájának hasonló, körzetsûrûség szerint bontott átlagértékeit az ELAR-minta körzetsûrûség szerinti megoszlásaival súlyozzuk (lásd 8-12. táblázat).











A 8-12. táblázatok alapján jól látszik: a mintavételi eljárások eltérésébõl adódó - valóban meglevõ - különbségek teljesen elhanyagolható ménékben érintik a minták legfontosabb társadalmi-demográfiai indikátorait. Noha minden kétséget kizáróan igaz az, hogy a Cigányvizsgálatban alkalmazott területi rétegzési elv (az általános iskolás cigány gyerekek száma alapján meghatározott körzetsûrûség) szoros korrelációban áll az említett indikátorokkal, a községi alminták körzetsûrûség szerinti eloszlásai - a mintavételi eljárások gyökeres különbözõsége ellenére is - oly kis mértékben különböznek egymástól az ELAR-felvétel és a Cigányvizsgálat esetében, hogy függetlenül attól, melyik minta körzetsûrûség szerinti súlyait alkalmazzuk, lényegében ugyanazokat a megoszlásokat, illetve átlagokat kapjuk vissza, mint amelyekkel az egyik vagy a másik minta esetében eredetileg rendelkeztünk.

A különbségek okát tehát másutt kell keresnünk A következõ fejezetben az adatfelvételi eljárások egy másik, fontos elemét - a meghiúsult kikérdezésekbõl adódó torzítások problémáját - vesszük szemügyre.


3. A két adatfelvétel különbségeinek egyik lényeges oka:
a meghiúsult kikérdezésekbõl adódó torzítások eltérõ kezelése


A továbbiakban megpróbálunk amellett érvelni, hogy a két adatfelvétel belsõ szerkezeti különbségei (legalábbis részben) abból adódnak, hogy míg a Cigányvizsgálatban a meghiúsult kikérdezéseket megfelelõ pótcímekkel8 pótoltuk, addig az ELAR-adatfelvételben az eredeti háztartásminta mintegy 15-16 százalékában9 nem került sor a meghiúsult kérdõívek pótlására. Az ELARminta esetében a népszámlálás nem, életkor, lakóhely szerint bontott, továbbvezetett népességszámainak megfelelõ belsõ arányokat a sikeres kikérdezéseket jelentõ megfigyelések átsúlyozásával biztosították.10 Ez elvileg teljesen korrekt eljárás a minta egészére nézve. Egy részpopulációra nézve azonban már korántsem ilyen egyértelmû a helyzet. Ha feltesszük, hogy a teljes népességre reprezentatív, szakmailag korrekt módon megtervezett minta - a nagy esetszámból adódóan - viszonylag kis létszámú kisebbség esetében is reprezentatív mintát biztosít számunkra, akkor a meghiúsult kikérdezések miatt bekövetkezõ mintatorzításokat csak abban az esetben korrigálhatjuk megfelelõ módon a szóban forgó részpopuláció esetében a teljes mintára kidolgozott átsúlyozási eljárás segítségével, ha joggal feltételezhetjük, hogy a meghiúsult kérdõívek a részpopuláció esetében nagyjából ugyanolyan arányban kerülnek ki a társadalom különbözõ rétegeibõl, mint a minta egészének esetében. Az alábbiakban amellett érvelünk, hogy az ELAR-minta cigány almintájának esetében empirikusan egészen biztosan nem állt fenn ez az eset. Mi több: a Cigányvizsgálat felvételének meghiúsult kikérdezéseirõl összegyûjtött információink alapján jó okunk van feltételezni, hogy a meghiúsulások a minta egésze, illetve a cigány részminta esetében jellegzetesen különbözõ arányban kerültek ki a társadalom különbözõ rétegeibõl. A részminta megfelelõ arányait ezért a teljes mintára kidolgozott átsúlyozási eljárás segítségével nem lehet helyreállítani. Amint az alábbiakban kimutatjuk: a súlyozási eljárás ebben a konkrét esetben nemhogy javítaná, hanem éppenséggel tovább rontja a cigány alminta reprezentativitását.

Az ellenõrzést két kulcsváltozó - a háztartáslétszám és a lakásban lakó gyermekek száma - alapján végezzük el. Mint a két minta belsõ eltéréseit taglaló fejezetben láttuk, e tekintetben igen nagyok a két adatfelvétel különbségei. A probléma tehát ugyancsak releváns. Az ellenõrzés során indirekt bizonyítást alkalmazunk. Föltesszük, hogy a súlyozás mind a teljes populáció, mind pedig a cigány részpopuláció esetében reprezentatív mintát eredményezett. Ennek a feltevésnek az alapján megvizsgáljuk a teljes mintában és a cigány részmintában az átlagos háztartáslétszám és az átlagos gyerekszám súlyozás nélküli, illetve súlyozott értékeit. Ha igaz az, hogy a súlyozás megfelelõen helyreállítja a minták reprezentativitását, akkor a súlyozott és súlyozatlan átlagértékek különbségeinek egyértelmû bizonyítékát kell adniuk annak, hogy a meghiúsulások átlagosan milyen irányban torzították el az eredetileg helyes mintákat. Lássuk tehát mindenekelõtt a kérdéses számadatokat.

A 13. táblázat tanúsága szerint a szóban forgó teszt szempontjából a minta egésze és a cigány alminta teljesen eltérõ módon viselkedik. A minta egészében azt látjuk, hogy a súlyozott átlagértékek kis mértékben meghaladják a megfelelõ súlyozatlan értékeket, ezzel szemben a súlyozatlan cigány átlagadatok rendre alatta maradnak (ráadásul lényegesen nagyobb mértékben) a súlyozott átlagértékeknek. Ebbõl a különbségbõl logikailag az következnék - feltéve persze, hogy nem kérdõjelezzük meg azt, hogy a súlyozás mind a teljes minta, mind pedig a cigány alminta esetében reprezentatív mintát biztosít -, hogy az ELAR-minta egészében a kikérdezések némileg nagyobb arányban hiúsultak meg a nagyobb, mint a kisebb létszámú háztartások esetében, a cigány almintán belül viszont épp ellenkezõleg, a kikérdezések nagyobb arányban hiúsultak meg a kisebb, mint a nagyobb méretû háztartások esetében. Ha most figyelembe vesszük azt is, hogy a háztartáslétszám minden empirikus tapasztalat szerint szignifikáns negatív összefüggésben áll a háztartások egy fõre jutó átlagjövedelmével és társadalmi státusával, akkor rögtön világossá válik, milyen különös következményekhez vezet az, ha az ELAR-minta egészének reprezentativitásáról gondoskodó súlyozásról föltesszük, hogy az a cigány alminta esetében is reprezentatív mintát biztosít. Azt jelenti ugyanis, hogy a cigány alminta esetében - amely alminta köztudott módon zömében nagy létszámú, alacsony státusú és szegény háztartásokból áll - a kikérdezések mégis nagyobb arányban hiúsultak meg a kis létszámú, magasabb státusú, jobb anyagi helyzetû háztartások esetében.



Az empirikus adatfelvételek egybehangzó tapasztalata ugyanakkor az, hogy a meghiúsult kikérdezések halmazán belül többnyire a társadalmi hierarchia szélein levõ háztartások vannak fölülreprezentálva. Vagyis: a magas és az alacsony társadalmi státusúak. Azok a háztartások, melyeknek megbízható részvételére lehet számítani a reprezentatív adatfelvételekben, mintabeli súlyuknál nagyobb valószínûséggel kerülnek ki a társadalom középrétegeibõl. Ezt a megállapításunkat jól szemléltethetjük a TÁRK1 1993. évi háztartáspanel-felvételének meghiúsult kikérdezéseivel, hiszen a szóban forgó vizsgálat paneljellegébõl adódóan (az elõzõ évi kikérdezés alapján) megbízható ismereteink vannak a meghiúsult esetekrõl. Az 1. ábra összegzi ezeket a tapasztalatokat. Az ábra vízszintes tengelyén az egy fõre jutó jövedelemkategóriákat tüntettünk föl, a függõleges tengelyen pedig azt ábrázoltuk, hogy az adott egy fõre jutó háztartási jövedelemkategória esetében milyen mértékben vannak fölül-, illetve alulreprezentálva az 1992. évi mintabeli súlyukhoz képest az 1993. évben meghiúsult kikérdezéseket jelentõ (de az 1992. évi adatok alapján ismert egy fõre jutó jövedelmû) háztartások. Az ábrából világosan kivehetõ a szegény (alacsony egy fõre jutó jövedelmû) és a gazdag (magas egy fõre jutó jövedelmû) háztartások relatív túlreprezentációja a meghiúsult kikérdezések esetén.



Minthogy a cigányság zöme a társadalmi és jövedelmi hierarchia alján helyezkedik el, joggal számíthatunk rá, hogy a cigány megkérdezettek körében a meghiúsult kikérdezések zöme - ellentétben azzal, ahová a cigány alminta reprezentativitásának feltételezésébõl logikai úton eljutottunk - az alacsony státusú, szegény (és ezért nagyobb létszámú) háztartások közül kerül ki. Ha pedig ez így van, akkor ellentmondáshoz jutottunk. Abból a feltételezésbõl, hogy a teljes mintára kidolgozott súlyozási eljárás megfelelõen gondoskodik a cigány alminta reprezentativitásáról, azt a következtetést vezettük le, hogy akkor a cigány meghiúsulások zömének a kis létszámú háztartásokból kell kikerülnie. A meghiúsulások jövedelem és társadalmi státus szerinti eloszlásának általános tapasztalataiból, valamint a cigányság alacsony jövedelmi és társadalmi helyzetébõl, továbbá a társadalmi és jövedelmi helyzet és a háztartásnagyság közti negatív korrelációból viszont ezzel épp ellentétes konklúzióra jutottunk: a cigány meghiúsulások zömének a nagy létszámú háztartásokból kell kikerülnie. Ha tényadatokkal sikerül alátámasztanunk azt, hogy az utóbbi logikai levezetés empirikusan is helytálló, akkor a kis létszámú háztartások dominanciájára vonatkozó következtetés egyedül azért nem állhatja meg a helyét, mert a premissza volt hibás: a minta egészének tulajdonságai alapján kidolgozott súlyozási eljárás nem biztosítja a cigány alminta reprezentativitását.

A Cigányvizsgálat meghiúsult kikérdezéseirõl rendelkezésünkre álló információk egyértelmûen ezt az értelmezést támasztják alá. A meghiúsulásokról a kérdezõbiztosoknak adatlapot kellett kitölteniük, amely a meghiúsulás oka mellett a megadott cím közvetlen lakóhelyi környezetének megítélését (a lehetséges kódok: feltûnõen slumos, lepusztult; szegényes, de viszonylag rendezett; átlagos; az átlagosnál jobb színvonalú), valamint a háztartás társadalmi helyzetének megítélését is tartalmazta (mármint abban az esetben, ha ez a háztartásról szerzett benyomások, a lakás képe és egyéb külsõségek alapján egyáltalán eldönthetõ volt). Az utóbbi eset lehetséges kódjai a "jómódú", "átlagos", "szegény" voltak. A meghiúsult kikérdezések száma a teljes mintában 405, azaz a minta (2222 háztartás) 18,4 százaléka volt. Ebbõl 52 olyan meghiúsulás volt, melyben a megkérdezettek vagy cigány mivoltukra hivatkozva, vagy éppenséggel azért, mert nem tartották magukat cigánynak, utasították vissza a válaszadást. Ez a két esemény elvileg sem fordulhatott elõ az ELAR-adatfelvételben, hiszen a megkérdezett cigány háztartások tagjait nem informálták arról, hogy õket mint cigány háztartások tagjait is fölmérik. A fennmaradó 353 meghiúsulás a minta 16,4 százalékát tette ki. Összehasonlításképpen: ugyanez az arány az ELAR-felvételben 15,7 százalék (4186/26604) volt.

Ha tehát beigazolódik az a sejtésünk, hogy a cigányok körében tapasztalható meghiúsulások zöme az alacsony társadalmi státusú rétegekbõl kerül ki, akkor az a tény, hogy a cigányok körében nagyobb valószínûséggel hiúsultak meg a kikérdezések, összességében még jobban megnöveli a kiesõ alacsony státusú (vélhetõen nagy létszámú) háztartások súlyát, melyeknek megfelelõ súlyú mintabeli szerepeltetését a teljes populáció tulajdonságai alapján kidolgozott átsúlyozási eljárás nem képes megoldani. A 14-15. táblázat egyértelmûen ezt a megállapításunkat támasztja alá.

Ha az ELAR-mintavétellel való kompatibilitás kedvéért figyelmen kívül hagyjuk a cigányságra hivatkozó válaszmegtagadás esetét, akkor azt látjuk, hogy a Cigányvizsgálatban a kikérdezések nagyobb részében - mintegy 54-55 százalékban - slumos vagy szegényes környéken élõ, illetve rossz anyagi helyzetû háztartások esetében hiúsultak meg. Aligha feltételezhetjük, hogy ez másként történt az ELAR-minta cigány almintájának esetében. Vagyis arra számíthatunk, hogy a meghiúsulások következtében szignifikánsan nagyobb arányban hullhattak ki - az eredetileg reprezentatív - mintából a rossz körülmények között élõ, szegény, nagyobb létszámú háztartások.





Visszatérve indirekt bizonyításunk gondolatmenetéhez, következtetésünket az alábbiakban összegezhetjük. A cigány alminta esetében a minta reprezentativitását a súlyozás egyedül abban az esetben állíthatta volna helyre, ha a meghiúsulások következtében épp a kisebb háztartások hullottak volna ki szignifikánsan nagyobb arányban az eredetileg reprezentatív cigány almintából. Ennélfogva az a körülmény, hogy józan empirikus megfontolások alapján ennek épp az ellenkezõje következhetett be, azt bizonyítja: a súlyozás a cigány alminta esetében nem biztosítja a minta reprezentativitását. Mi több: minthogy a cigány alminta esetében minden valószínûség szerint a nagyobb háztartások hullottak ki nagyobb valószínûséggel az eredeti mintából, a súlyozási eljárás pedig a cigány háztartások átlagos létszámát és gyerekszámát csökkenti (ahelyett, hogy növelné), a súlyozás ahelyett, hogy javítaná, még tovább rontja a cigány alminta reprezentativitását. Komoly érvek szólnak tehát amellett, hogy az ELAR-minta szisztematikusan alábecsüli a cigány háztartások átlagos létszámát és gyerekszámát. A 13. táblázat adatai alapján elmondhatjuk, hogy e szisztematikus torzítás mértéke meglehetõsen nagy, különösen ha figyelembe vesszük, hogy az eredeti (súlyozatlan) adatok maguk is szisztematikusan torzított becslései az elméleti adatoknak.


4. Az átlagos gyermekszám adatok megbízhatóságának ellenõrzése országos iskolastatisztikai adatok alapján

A soron következõ két fejezetben megpróbáljuk a két adatfelvétel megbízhatóságát egy egyértelmûen objektívnek tekinthetõ külsõ adatforráson is lemérni. Ez a külsõ adatforrás nem más, mint a Mûvelõdésügyi Minisztériumnak az 1970/71. és az 1992/93. tanév között a cigány gyerekekrõl is folyamatosan vezetett iskolastatisztikái. Mielõtt továbbmennénk, célszerû néhány szót ejtenünk a szóban forgó statisztikákról.

A Mûvelõdésügyi Minisztérium az ötvenes évek végétõl vezet évenkénti iskolaszintû nyilvántartást az ország valamennyi oktatási intézményérõl (általános iskolájáról, közép-, illetve felsõfokú oktatási intézményérõl). Ezekben az évrõl évre megismétlõdõ iskolaszintû adatfelvételekben az 1957/58. tanévtõl kezdve több-kevesebb rendszerességgel, 1980/81-tõl pedig rendszeresen szerepel az egyes évfolyamokon tanuló cigány gyermekek számára vonatkozó kérdés. Az aggregált iskolastatisztikák alapjául szolgáló kérdésre mindig az adott iskola megfelelõ osztályát tanító tanár (osztályfõnök) válaszolt - mégpedig ugyanannak a szociológiai jellegû kritériumnak az alapján, mint amit az 1993. évi ELAR-adatfelvétel és a Szociológiai Intézet 1993. évi Cigányvizsgálata is alkalmazott: "cigány az, akit a nem cigány környezet cigánynak tekint". Az iskolastatisztikákban is ez az elv érvényesült: cigány tanulónak minõsült az a diák, akit osztályfõnöke a gyermek, illetve a gyermek családjának ismerete alapján annak tekintett. Ezeket az információkat aggregálták azután elõször iskolaszintû adatokká (a kérdõíveket iskolaszinten töltötték ki), majd pedig további aggregáció útján ezekbõl készültek el az országos szintû iskolastatisztikai adatok. Minthogy az iskolastatisztikák alapjául szolgáló kérdõíveket mindig az adott tanév októberében töltötték ki, a cigány etnikai hovatartozásra vonatkozó kérdést olyan tanárok válaszolták meg, akik az elsõ osztályosok esetében legalább egy hónapja, a többiek esetében egy vagy több év óta ismerték õket és családjaikat. Nyilvánvaló tehát, hogy a hasonló kritériumot alkalmazó szociológiai jellegû adatfelvételekkel összevetve - ahol a kérdezõbiztosok csak alkalomszerûen, a megkérdezés idõtartamára álltak kapcsolatban a megkérdezettekkel - az iskolastatisztikák adatai megbízhatóbban mérik a fenti kritériumnak megfelelõ cigány etnikai hovatartozást. Az iskolastatisztikák további elõnyös tulajdonsága az, hogy teljes körûek: azáltal, hogy lefedik az adott oktatási intézménytípus valamennyi iskoláját, az adott iskolába járó korosztályok egészét, teljes körûen jellemzik. Minthogy a cigányság esetében az ily módon vezetett iskolastatisztikák jelentik a rendelkezésünkre álló egyetlen, viszonylag megbízható, teljes körû adatbázist, egy reprezentativitásra törekvõ adatfelvételtõl elvárható, hogy összhangban legyen vele.

A szóban forgó iskolastatisztikák mindenkori évfolyamszintû aggregált országos adatai rendelkezésünkre állnak az általános iskolák esetében az 1970/71-es tanévtõl az 1992/93. tanévig - néhány év (1971/72, 1972/73, 1975/76, 1978/79, 1979/80) kivételével - folyamatosan, a szakmunkásképzõk és szakiskolák esetében az 1980/81-es tanévtõl, a gimnáziumok, szakközépiskolák és technikumok esetében pedig az 1979/80-as tanévtõl egészen az 1992/93-as tanévig. Az egyetemre felvett cigány tanulókról nem készültek statisztikák.11

A reprezentatívnak tekintett adatfelvételek gyermekszám, illetve iskolai végzettség adatainak megbízhatóságát tehát van min lemérnünk. Elõször a gyerekszám adatok megbízhatóságát teszteljük, majd a következõ fejezetben sort kerítünk az iskolai végzettség adatok ellenõrzésére is.

A teszt természetesen csak a nappali tagozaton tanuló (normál és kisegítõs) általános iskolás gyermekekre terjedhet ki. Az iskolastatisztikák szerint a nappali tagozatos általános iskolás cigány tanulók száma az 1992/93-as tanévben 88182 fõ volt.12 A 16. táblázatban bemutatunk néhány összefoglaló adatot az ELAR cigány almintájából és a Cigányvizsgálat mintájából. Mindkét esetben közöljük mind a súlyozatlan, mind pedig a súlyozott adatokat. A Cigányvizsgálat esetében a súlyozás mindössze azt jelenti, hogy a mintavételi körzetekre jellemzõ mintavételi arányok reciprokának felhasználásával teljeskörûsítettük adatainkat.



A teszt egyértelmûen igazolja azt a sejtésünket, hogy az ELAR-felvétel cigány almintájában igen jelentõs mértékben alul vannak reprezentálva az általános iskolás gyerekek, s ennek következtében általában is alul vannak reprezentálva a gyerekek. A súlyozott adatok tanúsága szerint az ELAR cigány almintája mindössze 58000 körüli számban tartalmaz általános iskolás gyereket. Ha öszszevetjük ezt az MKM 1992/93-as adatával, országos szinten mintegy 34 százalékos elmaradást tapasztalunk a teljes körû adat alsó becsléséhez képest. Az ELAR felvétel cigány almintája nem tud elszámolni az országban élõ nappali tagozatos általános iskolás cigány gyerekek 34 százalékával! A Cigányvizsgálat ezzel szemben igen közel jutott az elméleti adathoz. Az elmaradás mindössze 5,7 százalékos. Ha legjobb becslésnek elfogadjuk az iskolastatisztikák 88000 körüli adatát, és erre az adatra vetítjük a két adatfelvételbõl kiszámítható általános iskolás/teljes népesség arányt, akkor az alábbi igen meglepõ eredményhez jutunk: amíg a Cigányvizsgálat becslése (450000 fõ) nagyjából a két adatfelvétel által becsült 400-430 ezres népességszám közelében van, addig ez az eljárás az ELAR cigány almintájából becsült teljes cigány népességet csaknem 600000-es lélekszámúra növeli. Az ELAR saját becsléséhez (394000 fõ) képest ez olyan mértékû eltérés, ami alapvetõen megkérdõjelezi a szóban forgó adatbázis gyermekszám, illetve háztartáslétszám adatának realitását.


5. Az iskolai végzettség adatok megbízhatóságának ellenõrzése
aggregált iskolai kiáramlási adatok alapján


Az országos iskolastatisztikai adatok azonban arra is alkalmasak - minthogy viszonylag hosszú idõsor áll rendelkezésünkre -, hogy a felnõtt cigány népesség iskolai végzettség szerinti megoszlását ellenõrizzük velük. Az elgondolásunk az volt, hogy az iskolastatisztikák éves adatai alapján - alkalmasan megválasztott hipotézisek segítségével - megbecsüljük az adott évjáratból szakmunkásképzõt, illetve középiskolát (gimnáziumot, szakközépiskolát, technikumot) végzettek arányát, majd e kiáramlási (flow) adatok és az ellenõrizni kívánt adatfelvételek koreloszlásainak együttes figyelembevételével becslést adunk a szóban forgó iskolai végzettségû emberek jelenlegi állományáról (stock). A mintabeli állomány adatoknak természetesen nagyjából összhangban kell lenniük a kiáramlási adatok alapján becsült stock adatokkal. Eljárásunkat pontosabban az alábbi modell írja le.


A modell

Legyen Nijk azon emberek száma, akik az i-edik évben szereztek k-adik iskolai végzettséget, és életben vannak a j-edik (j>i) évben. Ekkor természetesen Nij azoknak a száma, akik az i-edik évben töltötték be a k-adik iskolai végzettség eléréshez szükséges életkort (akár lett, akár nem lett k-adik iskolai végzettségük), és a j-edik évben is életben vannak. Továbbá Njk azoknak a k-adik iskolai végzettséget szerzett embereknek a száma, akik életben vannak a j-edik évben. Nj a j-edik évben élõ teljes populáció. A feladat az, hogy az adott (k-adik) iskolai végzettségi fokozatra nézve, az éves iskolai kiáramlási adatok, valamint a megfigyelés évének (a t-edik évnek) a koreloszlása segítségével megbecsüljük a t-edik évben élõ népességen belül a k-adik iskolai végzettséggel rendelkezõ emberek arányát (Ntk/Nt).

Ha ismernénk azoknak az embereknek az arányát a t-edik idõpontban élõ teljes népességen belül, akik rendre az i=1,2, ..., t években szereztek k-adik iskolai végzettségi fokozatot (Nitk/Nt, i=1,2 ,..., t), akkor triviális módon elõállíthatnánk ezeknek az adatoknak a felhasználásával a kívánt stock becslést. Ugyanis:



Az egyenlet jobb oldalán szereplõ kiáramlási adatokat azonban nem ismerjük. Tudjuk viszont egyfelõl az aggregált iskolastatisztikai idõsorokból, hogy azok közül az emberek közül, akik életkoruknál fogva az i-edik évben szerezhettek k-adik iskolai végzettséget (Nii), valójában hányan szereztek k-adik iskolai végzettséget (Niik), másfelõl pedig az 1993. évi adatfelvételekbõl ismerjük a jelenleg élõ népesség korcsoportok szerinti eloszlását (Nit/Nt, i=1,2, ..., t). Azt állítjuk, hogy e két hányados segítségével jó becslést adhatunk az (1)-es egyenlet jobboldalán szereplõ összeg komponenseire, s így az egyenlet baloldalán szereplõ hányadosra is. Az alábbi módon:



Ha ugyanis a (2)-es kifejezésben szereplõ összeg minden egyes tagját beszorozzuk Nitk/Nitk hányadossal (vagyis: eggyel), akkor - a megfelelõ átrendezések elvégzése után - az alábbi formulát kapjuk:



Látható, hogy a (3)-as egyenlet jobboldalán szereplõ összeg minden tagja úgy áll elõ, hogy az (1)-es képlet jobboldalán szereplõ, elméletileg helyes, ám ismeretlen tagot a szögletes zárójelben szereplõ szorzótényezõvel módosítjuk. Hogyan értelmezzük, és mekkorára becsüljük ezt a torzító tényezõt?

A hányados értelmezése meglehetõsen egyértelmû: a számlálóban az i-edik korcsoport t-edik idõpontbeli (t>i) túlélési valószínûsége, a nevezõben pedig az i-edik korcsoport k-adik iskolai végzettséget elérõ részének t-edik idõpontbeli túlélési valószínûsége szerepel. Ha most már a k-adik iskolai végzettséget a szakmunkásképzõt, illetve középiskolát végzettek kategóriájára konkretizáljuk, akkor megállapíthatjuk: a cigányok körében, ahol az utóbbi két iskolai végzettségi kategória képezi a "magasabb iskolai végzettségûek" döntõ többségét, standard emberi tõke elméleti megfontolások13 és iskolai végzettség specifikus aggregált mortalitási14 adatok alapján is erõsen valószínûsíthetjük, hogy egy adott korcsoport magasabb iskolai végzettségû tagjainak túlélési esélyei jobbak, mint a - természetesen átlagos iskolai végzettségû - teljes korcsoporté. A szóban forgó hányados tehát empirikusan minden bizonnyal egynél kisebb szám lesz. Másfelõl azt is figyelembe kell venni, hogy a szóban forgó torzító tényezõ nagysága a t-edik idõpontbeli aktuális életkor függvénye is: minél alacsonyabb ez az életkor, annál valószínûbb, hogy az iskolai végzettség várható életkort növelõ hatása nem érvényesül még. A fiatalabb korcsoportok esetében ezért a torzító tényezõ közel esik egyhez, vagyis a torzítás is kicsi. Mivel azonban, minden empirikus tapasztalat szerint a magasabb iskolai végzettségûek körében a fiatalabb korcsoportok erõsen fölülreprezentáltak - ez a gazdasági fejlõdés egyenes következménye -, a torzítás mértéke az összeg legnagyobb súlyú tagjainál a legkisebb, és a legkisebb súlyú - idõsebb - korcsoportjainál a legnagyobb. A torzítás tehát összességében nem lehet túlságosan nagy. Ami a torzítás irányát illeti, elmondhatjuk, hogy az ily módon becsült stock adat alacsonyabb lesz az elméletileg helyes adatnál, de nem lesz sokkal alacsonyabb. Következésképp a (2)-es formulát - melynek mérését empirikusan képesek vagyunk megoldani - jó közelítésként elfogadhatjuk az elméletileg helyes (1)-es kifejezés becslésére. Vagyis:




A becsült stock adat kiszámításának gyakorlati lépései

A fenti eljárás gyakorlati megvalósításának lépései a következõek voltak:

1. Elsõ lépésben létrehoztuk az iskolai kiáramlási adatokat a rendelkezésünkre álló abszolút számokból. Az eljárás nyilvánvalóan az, hogy a végzett szakmunkásképzõsök esetében a 11 évvel korábban, a középiskolások esetében pedig a 12 évvel korábban beiskolázott általános iskolai elsõs korosztály számának százalékában adjuk meg a mindenkori relatív kiáramlási adatokat.

2. A relatív kiáramlási százalékok kiszámításakor kétféle becslési eljárást követtünk. Az egyikben változtatás nélkül magukat a nyers létszámadatokat fogadtuk el mérvadónak, vagyis teljesen figyelmen kívül hagytuk azt a nyilvánvaló tényt, hogy a túlkoros, illetve évismétlõ általános iskolai elsõsök közül minden bizonnyal sokkal kisebb, a normál korú elsõsök közül pedig sokkal nagyobb eséllyel jutnak el a gyerekek a sikeresnek tekinthetõ, szakmunkásképzõs, illetve középiskolai pályák végpontjaira. Ez az eljárás természetesen csak a kiáramlási százalékok alsó becsléseként fogadható el. A másik eljárás során ezzel éppen ellentétes elvet követtünk: maximálisan figyelembe vettük ezt a tényezõt. A szóban forgó általános iskolai elsõs korosztályoknak csak a normál korú részét vettük be a nevezõbe, a 11, illetve 12 évvel késõbb szakmunkásképzõt, illetve középiskolát végzettek nyers adatait pedig változtatás nélkül szerepeltettük a számlálóban. Ezzel azt feltételeztük, hogy az adott generációból a sikeres pályák végpontjaira kizárólag normál korú diákoknak sikerül eljutni. Ez az eljárás természetesen csak a kiáramlási százalékok fölsõ becsléseként fogadható el. Az elméleti adat valahol az alsó és fölsõ becslés között lehet.

További nehézséget jelentett, hogy az általános iskolák elsõ osztályába beiskolázott cigány gyerekek közül a normál korúak arányára csak öt megfigyeléssel rendelkeztünk.15 A hiányzó adatokat lineáris interpoláció, illetve extrapoláció által becsült adatokkal töltöttük ki: vagyis azt feltételeztük, hogy a megfigyelések közti változások idõben egyenletesen mentek végbe.

3. Mint korábban említettük, a szakmunkásképzõt, illetve középiskolát végzett cigány gyerekek számáról csak a nyolcvanas évtized elejétõl vannak folyamatosan adataink, az általános iskolás cigány gyerekek számáról pedig az 1969/70. tanévtõl folyamatosan (bár néhány tanév esetében adathiányokkal). Ennek következtében a 2. pontban jelzett számítások eredményeit extrapolálnunk kellett azokra a tanévekre (vagy, ami ugyanaz: korcsoportokra), melyekre vonatkozóan adathiány folytán nem álltak rendelkezésünkre megfigyelések. Ahol két megfigyelés közti év adatát kellett becsléssel pótolni, ott lineáris interpolációt alkalmaztunk, ahol pedig adatsorainkat az 1980 elõtti évekre kellett meghosszabbítani (szakmunkásképzõ esetében csak 1960-ig16), ott az utolsó három, illetve öt egymást követõ megfigyelés átlagát vetítettük vissza a múltba. Ez utóbbi eljárás jogosultságát mérési céljaink igazolják. Az a körülmény, hogy az ELAR-adatbázisból a középiskolát végzettek arányára vonatkozó stock adat realitásában kételkedünk - túlságosan magasnak tartjuk -, indokolttá teszi, hogy az adathiányos idõszakra a valóságosnál minden bizonnyal magasabb flow adatokat vetítsünk vissza, hiszen ezzel a kiáramlási adatok alapján becsült stock adat is magasabb lesz a valóságosnál. Ez pedig bizonyításunkat nemhogy megkönnyítené, hanem éppenséggel megnehezíti.

4. Mivel a kiáramlási adataink csak a nappali tagozaton végzett diákokra vonatkoznak, mind az ELAR-mintából, mind pedig a Cigányvizsgálat mintájából ki kellett válogatnunk a 15 éves, illetve annál idõsebb korosztályokból azokat, akik legmagasabb iskolai végzettségüket nappali tagozaton szerezték. Ennek a halmaznak a korcsoport-súlyaival súlyoztuk be az iskolastatisztikák alapján becsült kiáramlási adatokat. Ennek eredményeként kaptunk egy alsó és egy felsõ becsült stock értéket a szakmunkásképzõt és középiskolát végzettek arányára, amelyet összehasonlítottunk a Cigányvizsgálat és az ELAR cigány részmintájának megfelelõ módon definiált tényadataival. Ezek után lássuk a számítások részletes menetét.


A becslési eljárás menete

Mindenekelõtt az ellenõrizni kívánt adatokat kellett létrehoznunk. Ez a halmaz - mint említettük - csak azokból állhat, akik vagy egyáltalán nem jártak iskolába, vagy legmagasabb iskolai végzettségüket nappali tagozaton szerezték. A nappali tagozaton végzettek meghatározására csak közvetett módszert tudtunk alkalmazni, mivel az ELAR-felvételben nem volt olyan változó, amely erre a konkrét kérdésre felelt volna. Rendelkezésünkre állt azonban a legmagasabb iskolai végzettség megszerzésének éve (bár az ELAR-adatbázisban ez is csak a nyolc általánosnál magasabb végzettségûekre volt meg.) A Cigányvizsgálatban természetesen ugyanazt a kritériumot kellett alkalmaznunk. Módszerünk a következõ volt. Az 1-7 osztályt végzettekrõl föltettük, hogy azt nappali tagozaton végezték el. A szakmunkásképzõt végzettek esetében nappali tagozaton szerzett végzettségnek tekintettük a 15 és 20 éves életkor között megszerzett végzettséget (ide tartoznak a kétéves szakiskolák is; ez indokolja az alacsony alsó életkorhatárt). A középiskolát végzettek esetében a 18 és 21 éves életkor között végzetteket, a felsõfokú végzettséggel rendelkezõk közül pedig a 20 és 26 éves életkor között végzetteket számítottuk a nappali tagozaton végzettek közé. Akik nem nappali tagozaton végezték el a szakmunkásképzõt vagy a középiskolát, azokat automatikusan a nyolc általánost nappali tagozaton végzettek közé soroltuk. Analóg módon jártunk el azokkal, akik nem nappali tagozaton szerezték meg a felsõfokú végzettségüket: õket automatikusan a nappali tagozaton szerzett középiskolai végzettségûekhez soroltuk. Bonyolultabb volt a helyzet azokkal, akiknek a legmagasabb iskolai végzettsége a nyolc osztály volt. Az õ esetükben csak a Cigányvizsgálat adataira támaszkodhattunk. Akik a nyolc általánost 13 és 17 éves koruk között végezték el, azokat tekintettük nappali tagozaton végzetteknek. Akik 17 évesnél idõsebb korukban végezték el a nyolc általánost, azokat automatikusan az 1-7 osztályt végzettek közé soroltuk be. Az ELAR-minta esetében pedig úgy jártunk el, hogy a nyolc osztályt nappali tagozaton végzettek számát a Cigányvizsgálat megfelelõ arányszámának17 felhasználásával becsültük meg az ELAR-minta nyolc általános végzettségû összes emberének adatából.

Mivel az ELAR-minta iskolai végzettség adataival a széleken van vitánk, az ellenõrzést a legkritikusabb helyeken: a cigányok körében magas iskolai végzettségnek számító szakmunkásképzõ, illetve középiskola esetében végezzük el (a felsõfokú végzettségûek adatának ellenõrzése kontrolladatok híján nem lehetséges). 17. táblázatunkban az ellenõrizni kívánt, nappali tagozaton megszerzett legmagasabb iskolai végzettség adatokat foglaltuk össze (félkövér betûtípussal jelöltük az egész ellenõrzési eljárás célját jelentó szakmunkásképzõ, illetve legalább középiskolai végzettség adatokat). Minthogy iskolatípusonkénti kiáramlási (flow) adatokból becsülünk stock adatot, ezért a középiskolai végzettségûek állományába kell tartoznia mindenkinek, aki legalább középiskolai végzettséget szerzett (vagyis annak is, akinek a legmagasabb iskolai végzettsége az egyetemi vagy fõiskolai diploma lett).



A továbbiakban az iskolastatisztikák flow adataiból való stock becslés lépéseit követjük nyomon. A becsléshez fölhasznált cigány tanuló adatok két forrásból származnak. Egyrészt a hetvenes és nyolcvanas években készült öt részletesebb iskolai adatfelvétel a cigány gyerekekrõl (az 1970/71., 1y74/75., 1977/78., 1981/82. és az 1985/86. tanévben). Ezeknek a felvételeknek az eredményeit a Mûvelõdésügyi Minisztérium belsõ kiadványokban adta közre (Cigány tanulók 1971; 1978; 1982; 1986). Általános iskolai statisztikáink egy része, valamit a szóban forgó évek normálkorú általános iskolai cigány tanulóinak részarányára vonatkozó adatok innen származnak. A nyolcvanas évek elejétõl folyamatosan regisztrált általános iskolai adatokat, valamint a középiskolákba és szakmunkásképzõkbe járó cigány gyerekek valamennyi adatát a Mûvelõdési és Közoktatási Minisztérium Statisztikai Osztálya bocsátotta a rendelkezésünkre. Alapadatainkat a Függelék Fl., F2. és F3. táblázatában közöljük.



A 18. táblázat tartalmazza a nyers kiáramlási adatokat, melyeket úgy kaptunk meg, hogy az adott évben szakmunkásképzõt, illetve középiskolát végzettek számát elosztottuk a 11, illetve 12 évvel korábban beiskolázott általános iskolai elsõsök számával. Ez a fentebb említett alsó becslésnek felel meg. A táblázatban a korév oszlop mindkét esetben azt jelenti, hogy az ELAR-felvétel és a Cigányvizsgálat idõpontjában (1993) átlagosan hány éves lehetett az adott évben végzett egyén. Beiskolázott elsõs adatok hiányában néhány év esetében nem tudjuk megadni a szóban forgó kiáramlási rátát.

A normálkorúak aránya a beiskolázott általános iskolai elsõsök körében öt tanévre állt rendelkezésünkre. A közbülsõ évekre vonatkozó adatokat lineáris interpolációval becsültük meg. Az így kapott becsléseket és az eredeti adatokat a 19. táblázat tartalmazza.

A 19. táblázat második oszlopának számaival módosítottuk a 17. táblázat adatait oly módon, hogy az ott található számokat elosztottuk a becsült normálkorú arány adatok 11, illetve 12 évvel késleltetett értékével. Ezzel az abszolút kiáramlási adatokat a normálkorú beiskolázottakra vetítettük. Eredményül pedig a kiáramlási ráták fölsõ becsléséhez jutottunk. Az alsó és felsõ becslések eredményeit a 20. táblázatban foglaltuk össze.





A következõ lépésben a fenti négy adatoszlop számait visszavetítettük az idõben, és a hiányzó adatokra is becsléseket adtunk. Minthogy pontjainkra nem illeszkedett igazán sem lineáris, sem másmilyen függvény, ezért úgy döntöttünk, hogy a véletlen ingadozások egyenetlenségeit kiegyenlítjük. Ez a szakmunkásképzõt végzettek esetében úgy történt, hogy akik az 1991/92. és 1992/93. tanévben végeztek, azok e két év átlagos értékét kapták meg; akik az 1987/88. és 1990/91. tanévek között fejezték be iskolájukat, azok e két tanév átlagát kapták meg, akik pedig a 1986/87. tanévben vagy korábban végeztek, azok a maradék három érték átlagát kapták meg. A középiskolát végzettek esetében a következõ kiigazítást tettük: azok, akik az 1988/89. tanév után végeztek, megkapták az 1988/89. tanév és a két utolsó érték átlagát; akik az 1983/84. és 1987/88. tanévek között végeztek, azok e két idõpont közti három megfigyelés átlagos értékét vették föl; akik pedig az 1982/83. tanév elõtt végeztek, megkapták az elsõ két adat átlagát. Az így kapott eredményeinket ezután ötéves korcsoportokra átlagoltuk, a legutolsó ötéves korcsoportra számított adatunkat pedig visszavetítettük az idõben (a szakmunkásképzõk esetében csak a jelenleg ötvenéves korcsoportig). A korcsoportok természetesen tökéletesen megfeleltethetõk az ötéves történelmi idõintervallumoknak: az 1993-ban 20-24 éves korcsoport például megfelel az 1986/87. és 1990/91. között szakmunkásképzõt végzetteknek, illetve az 1987/88. és 1991/92. között középiskolát végzetteknek. A 21. táblázatban foglaltuk össze flow becsléseink végsõ eredményeit.



A becsült stock adatainkat végül úgy kapjuk meg, hogy a 21. táblázatban található korcsoportos kiáramlási adatokat a nappali tagozaton végzett sokaságok hasonló módon definiált ötéves korcsoportjainak megoszlási viszonyszámaival súlyozzuk. Természetesen itt ugyanazokkal a halmazokkal kell dolgoznunk, mint amelyeket az ellenõrizni kívánt iskolai végzettség állományi adatok meghatározásánál használtunk (lásd 17. táblázat). A szóban forgó halmaz korcsoportok szerinti megoszlása a 22. táblázatban található.18



Becslési eljárásunk utolsó lépéseként a 21. táblázatban szereplõ korcsoportos kiáramlási rátákat (illetve a megfelelõ ötéves történelmi intervallumok kiáramlási rátáit) az ELAR és a Cigányvizsgálat korcsoport szerinti megoszlásaival (a 22. táblázat adataival) súlyozzuk, s így az iskolastatisztikai flow adatokból alsó és felsõ stock értékeket becsülünk a nappali tagozaton végzettek, illetve iskolázatlanok közül a szakmunkásképzõt, illetve középiskolát végzettek 1993. évi arányáról. A becslések eredményeit és az ellenõrzés tárgyát jelentõ, megfigyelt stock adatokat a 23. táblázatban foglaltuk össze.



23. táblázat Megfogalmazhatjuk becslési eljárásunk végsõ következtetését. Elõször is: a becsült adatok a súlyozásra nem érzékenyek. Ez természetes következménye annak, hogy a 30 évesnél fiatalabb korcsoportok esetében a flow adatok igen szûk sávban mozognak, illetve hogy a korcsoportos kiáramlási adatokat a 30 évesnél idõsebb korcsoportok esetében állandónak tekintettük. Ismételten hangsúlyozzuk azonban: az idõsebb generációk elméleti kiáramlási adatai minden józan empirikus tapasztalat alapján alacsonyabbak a modellben feltételezettnél: egy 1993-ban 43 éves cigány ember egész biztos, hogy kisebb valószínûséggel jutott el a középiskolai érettségiig az 1968/69-es tanévben (hiszen az iskolastatisztikai idõsorok tanúsága szerint szignifikánsan kisebb eséllyel jutott el egyáltalán oda, hogy akár a nyolc általánost elvégezze), mint mondjuk - egy 1993-ban 24 éves ember az 1985/86-os tanévben.19 Ha ismernénk ezeket a számokat, becsült intervallumaink lejjebb csúsznának (és természetesen a két minta eltérõ súlyai is jobban érvényesülnének). Mármost a 23. táblázat alapján világosan látszik: ez még a jelenleginél is kedvezõtlenebb megvilágításba helyezné az ELAR-minta középiskolai végzettség adatát.

Másodszor: jól látható az is, hogy a szakmunkásképzõ adatok mindkét minta esetében a flow adatok révén becsült stock intervallumértékek közé esnek, habár inkább a fölsõ határhoz állnak közel. Ha a ma 30 évesnél idõsebb korosztályok elméleti kiáramlási rátáit használhatnánk, akkor elképzelhetõ, hogy mind az ELAR, mind pedig a Cigányvizsgálat mintabeli szakmunkásképzõ adata kívül kerülne a szóban forgó intervallumon, jóllehet a intervallum valódi határait fölfelé nyomja az a tény, hogy a becsült stock érték kiszámításánál alkalmazott közelítõ formulában (lásd (3)-as képlet) implicite benne rejlõ torzító tényezõ (voltaképpen egy túlélési esélyráta) némileg lefelé torzítja mérõeszközünket. Összességében: a szakmunkásképzõ esetében mindkét adatot nagyjából kompatibilisnek tekinthetjük az aggregált iskolastatisztikákkal.

Végül, ami a középiskolai adatokat illeti, a következõket mondhatjuk: bár a legalább középiskolát végzettek aránya a Cigányvizsgálatban is enyhén túlmegy az iskolastatisztikákkal kompatibilis stock érték fölsõ határán, az igazán súlyos problémát az ELAR-minta megfelelõ adata jelenti. A fölsõ határértéket 100nak tekintve, ez az eltérés a Cigányvizsgálat esetében 15 százalékosnak, az ELAR-minta esetében azonban 578 (!) százalékosnak adódik. Ez a hatalmas eltérés - becslési eljárásunk minden tökéletlensége mellett - sem tekinthetõ esetlegesnek. A próba tehát arról tanúskodik: amíg a Cigányvizsgálat adata enyhén fölülbecsüli az iskolastatisztikák alapján reálisnak tekinthetõ középiskolai végzettség adatot, de nagyjából kompatibilis vele, addig az ELAR-minta adata olyan mértékben megy túl a megengedett határon, hogy az aggregált iskolastatisztikákkal való kompatibilitás kritériumának egészen biztos, hogy nem tesz eleget.


Összegzés

Foglaljuk össze érvelésünk tanulságait. Kimutattuk, hogy a KSH nemzetiségi felvételének cigány almintája és a Szociológiai Intézet Cigányvizsgálatának mintája - fontos társadalmi indikátorok tekintetében - lényeges mértékben különbözik egymástól. Ezeknek az eltéréseknek az okai után nyomozva, három problémát vizsgáltunk meg tüzetesebben. Számot vetettünk a mintavételi eljárások különbségeinek következményeivel, és kimutattuk: noha a két felvétel mintavételi eljárásai tökéletesen eltérõ alapelveken nyugszanak, ezekbõl az eltérésekbõl mégsem magyarázhatjuk a szóban forgó jelentõs mintabeli különbségeket. A továbbiakban megvizsgáltuk azokat a különbségeket, amelyek a meghiúsult kikérdezések eltérõ kezelésébõl adódnak. Beláttuk, hogy az a körülmény, hogy a KSH adatfelvétele a cigány alminta esetében - a dolog természetébõl adódóan - nem tudta a meghiúsult cigány kikérdezéseket megfelelõ cigány pótcímekkel helyettesíteni, jelentõs mértékben hozzájárult a KSH cigány almintájának torzulásaihoz. Beláttuk azt is, hogy a KSH által alkalmazott súlyozási eljárás - a cigány alminta esetében - nemhogy javítaná, hanem inkább rontja a minta reprezentativitását. Végül megpróbáltuk a két minta jóságát, pontosabban az általános iskolás tanulók számának, illetve a felnõtt népesség iskolai végzettségi adatainak a realitását egy külsõ adatforráson - a Mûvelõdési Minisztérium iskolastatisztikai idõsorain - ellenõrizni. Ez a teszt is egyértelmûen a Cigányvizsgálat adatainak nagyobb megbízhatóságát igazolta.


Jegyzetek

* Köszönettel tartozom Kõrösi Gábornak statisztikai jellegû tanácsaiért, valamint kutatási asszisztenseimnek - Ábrahám Árpádnak és Kézdi Gábornak - a számításokban nyújtott segítségükért és tanácsaikért.

1. A kutatást Kemény István, Havas Gábor (MTA Szociológiai Intézet) és Kertesi Gábor (MTA Közgazdaságtudományi Intézet) vezette.

2. A homogenitás-vizsgálatról - amely tulajdonképpen nem más, mint a chi2-próbák egyik alesete - lásd például: Prékopa 1962: 371-372.

3. Az ELAR-minta átsúlyozását a KSH kétfajta eljárással oldotta meg. A korábbi gyakorlat - melyet egyébként a korábbi és az 1994. év elsõ két negyedévében lefolytatott munkaerõfelvételek során mindvégig alkalmaztak - az volt, hogy a népszámlálás nem, életkor és lakóhely szerint bontott, továbbvezetett népességszámai alapján, a 15-74 éves korosztály egyéneire számítottak teljeskörûsítést és reprezentativitást egyszerre biztosító súlyokat. Nevezzük ezt a fajta - a minta egyéneihez rendelt - súlyt wkorr1-nek. 1994 júliusában a KSH másfajta - háztartás- és egyéni szintû - súlyozási eljárásra tért át. Ebben a tanulmányban, amikor súlyozott adatokról beszélünk, ez utóbbi (wkorr2) súlyokat használjuk. Megjegyezzük, hogy az általunk vitatott publikációban (A cigányság helyzete) a KSH szakértõi is ezt a súlyozási eljárást alkalmazták.

4. A szóban forgó adatfelvételek file-jait az adatfelvétel készítõjétõl, Ladányi Jánostól vásároltuk meg.

5. Természetesen nem állíthatjuk, hogy a "teljes körû" összeírást száz százalékosan sikerült megoldanunk. Mindazonáltal - mint majd azt a 4. pontban látni fogjuk - ehhez az ideális eredményhez meglehetõsen közel jutottunk. Az ország egészét tekintve 90 százaléknál minden bizonnyal nem sokkal rosszabb összeírási arányt érhettünk el. Lásd a 16. táblázat (4)-es sorát.

6. Pontosabban: a 15000-nél kisebb lélekszámú községek képezik az összehasonlítható településhalmazt. Ezek a települések az ELAR-mintába is véletlen kiválasztással kerültek be. A 15000 fõs, illetve annál nagyobb lélekszámú települések teljes körûen képviseltetik magukat az ELAR-mintában.

7. A tesztet a városokra sajnálatos módon nem terjeszthetjük ki, hiszen a két felvétel esetében a kisebb mintavételi egységek más-más aggregátumok: a Cigányvizsgálat esetében az önkormányzati választókörzetek, az ELAR-felvétel esetén pedig a népszámlálási számlálókörzetek voltak. Itt meg kell jegyeznünk azt, hogy az önkormányzati választókörzeteket mint a városokban történõ mintavétel kisebb területi egységeit kényszerûségbõl alkalmaztuk. Jobban szerettünk volna mi is népszámlálási számlálókörzeteket használni. Ehhez ismernünk kellett volna a kiválasztott (városokkal, községekkel együtt) mintegy 300 településen belüli számlálókörzetek pontos határait. Az ehhez szükséges térképek azonban egyedül a KSH-nak állnak rendelkezésre, ahonnan ésszerû költségekért fénymásolatokat nem sikerült beszereznünk. Így kényszerûségbõl kisebb területi egységekként az önkormányzati választókörzeteket használtuk, melyeknek területi határait valamennyi település önkormányzatánál pontosan ismerik. Ezt az információt kivétel nélkül minden érintett önkormányzat ingyen bocsátotta a rendelkezésünkre. Nagyvonalúságukat ezúton szeretném - a kutatás valamennyi irányítójának nevében - megköszönni.

8. A pótcímeket a falvak esetében az adott településrõl, a többi településkategória (Budapest, Miskolc, megyeszékhely, egyéb város) esetében pedig az adott település megfelelõ sûrûségû (ritka, közepes, illetve sûrû) alkörzetébõl választottuk. Az adott településrész pótcímeit ezután megkevertük, majd a megkevert halmaz véletlenszerûen egymás után következõ elemeit sorszámmal láttuk el, és a kérdezõbiztos számára elõírtuk, hogy meghiúsulás esetén mindig e sorszám szerint sorban következõ pótcímet vegye igénybe. A keveréssel a községen, illetve az alkörzeten belüli pótcím-mintát randomizáltuk, a kötelezõ sorrendiség elõírásával pedig e véletlenszerûség követésére késztettük kérdezõbiztosainkat. A pótcímek száma település-alkörzetenként megegyezett az eredeti címek számával.

9. Az 1993. évi ELAR szeptemberi-októberi-novemberi hullámában a 26 604 fölkeresett háztartás közül a kikérdezés 4186 esetben különbözõ okoknál fogva meghiúsult. A meghiúsulási arány az eredeti minta 15,73 százalékát tette ki. A súlyozatlan háztartásmintaelemszám 22 418 volt.

10. Az Éltetõ és Marton (1995) által hivatkozott irodalom szerint a meghiúsulások által okozott mintatorzítások korrigálására sok szempontból jobb megoldást nyújt az utólagos átsúlyozás, mint a pótminta használata. A cigány minta esetében azonban ez a dilemma föl sem merülhet, ez esetben ugyanis nem áll rendelkezésre olyan teljes körû információ, amelyre az átsúlyozást alapozhatnánk.

11. Az említett statisztikai kiadványok a következõk: Cigány tanulók 1971; 1978; 1982; 1986. Az 1980/81. tanévtõl az 1992/93. tanévig vezetett iskolastatisztikai adatok forrása a Mûvelõdésügyi Minisztérium Statisztikai Osztályának nyilvántartása.

12. Ez minden valószínûség szerint inkább alsó, mint felsõ becslésnek tekinthetõ. Aligha lehet gyakori esemény ugyanis az, hogy a környezetük által tipikusan nem cigánynak tekintett gyerekeket általános iskolai tanáraik cigány származásúnak minõsítsenek. Inkább a fordított eset a valószínûbb: az ti., hogy az asszimilálódott családok gyermekeit tanáraik nem tekintik cigány származásúaknak.

13. Lásd például Grossman 1976.

14. Lásd például Orosz 1993: 238.

15. Lásd Cigány tanulók 1971; 1978; 1982; 1986.

16. Mai értelemben vett szakmunkásképzõ tanintézmények csak a hatvanas évek óta léteznek.

17. Ez az arányszám a nyolc osztályt nappali tagozaton végzettek és a nyolc általános végzettségûek hányadosaként állt elõ; számszerûen pedig 1898/2101=0,901 volt. Az ELAR-minta korrigálatlan adata a nyolc általános iskolai végzettségûekre 117 585 fõ volt. A nappali tagozaton végzettek becsült adata így az elõbbi szám 90,1 százaléka, azaz: 105944 fõ lett. A két szám különbözetét, azaz azt a 11641 embert, aki nyolc osztályos iskolai végzettségét nem nappali tagozaton szerezte meg, átsoroltuk az 1-7. osztályos kategóriába.

18. A korcsoportok szerinti megoszlást az 1-7. és a 8. osztályközti, ELAR-mintán belüli átsorolások természetesen nem befolyásolják.

19. Hogy egy összehasonlítást mégis megkockáztassunk: míg az 1957/58-as tanévben (ekkor lehetett elvileg nyolcadikos az 1993-ban 43 éves emberünk) az ország általános iskoláiban tanuló összes cigány gyereknek 11,7 százaléka járt fölsõ tagozatú osztályba (lásd Cigány tanulók 1971: 5.), addig az 1981/82-es tanévben (ekkor lehetett elvileg nyolcadikos az 1993-ban 24 éves ember) a fölsõ tagozatosok aránya már 40,6 százalék volt (lásd Cigány tanulók 1982: 12.).


Hivatkozások

Cigány tanulók 1971. Cigány tanulók az általános iskolában (1970/1971. tanév). Budapest: Mûvelõdésügyi Minisztérium Statisztikai Osztály (csak belsõ használatra)

Cigány tanulók 1978. Cigány tanulók az általános iskolában (1977/1978. tanév). Budapest: Egyetemi Számítóközpont (csak belsõ használatra)

Cigány tanulók 1982. Cigány tanulók az alsó és középfokú oktatási intézményekben (1981/1982. tanév). Budapest: Tudományszervezési és Informatikai Intézet (csak belsõ használatra)

Cigány tanulók 1986. Cigány tanulók az alsó és középfokú oktatási intézményekben (1985/1986. tanév). Budapest: Tudományszervezési és Informatikai Intézet (csak belsõ használatra)

Éltetõ Ödön-Marton Ádám 1995. "A mintanagyság és a meghiúsulások kapcsolata a reprezentatív adatfelvételekben". Statisztikai Szemle, október

Grossman, Michael 1976. The Correlation between Health and Schooling. In: N. Terleckyj (ed.), Household Production and Consumption. New York: Columbia University Press

Kemény István-Havas Gábor-Kertesi Gábor 1994. Beszámoló a magyarországi roma (cigány) népesség helyzetével foglalkozó, 1993 októbere és 1994 februárja között végzett kutatásról. Budapest: ILO-programiroda részére készült tanulmány. Kézirat.

Kertesi Gábor 1995. Cigány gyerekek az iskolában, cigány felnõttek a munkaerõpiacon. Közgazdasági Szemle, január

Mészáros Árpád-Czibulka Zoltán-Fóti János-Nagy Orbán-Szûcs Zoltán 1994. A cigányság helyzete, életkörülményei 1993. Budapest: KSH

Munkaerõ-felmérés 1994. Munkaerõ felmérés, 1993 (adattár). Budapest: KSH

Orosz Éva 1993. A magyar egészségügy területi egyenlõtlenségei. In: Enyedi Gy. (szerk.), Társadalmi-területi egyenlõtlenségek Magyarországon. Budapest: KJK

Prékopa András 1962. Valószínûségelmélet mûszaki alkalmazásokkal. Budapest: Mûszaki Könyvkiadó