Moksony Ferenc

Moksony Ferenc
A KICSI SZÉP.
A DETERMINÁCIÓS EGYÜTTHATÓ ÉRTELMEZÉSE ÉS HASZNÁLATA A SZOCIOLÓGIAI KUTATÁSBAN^*

"Ezeknek az illeszkedési mutatóknak végzetes vonzerejük van. Bár a hozzáértõk rendszerint elismerik, hogy semmit sem jelentenek, magas értékeik mégis büszkeséggel és elégedettséggel töltik el létrehozóikat, bármennyire igyekeznek is titkolni ezeket az érzéseiket" (Cramer 1987: 253).

Kevés statisztikai mutató örvend akkora népszerûségnek és tiszteletnek a társadalomkutatók körében, mint a determinációs együttható. Az R² úgyszólván kötelezõ tartozéka minden valamirevaló tudományos publikációnak, és sokan szinte megszállottként törekednek a növelésére.¹ Olyan mutató is kevés akad azonban, amelyet gyakrabban használnának fölöslegesen vagy éppen hibásan, és amelyhez több téves értelmezés, megalapozatlan várakozás tapadna. Ennek az írásnak a célja a determinációs együttható értelmezésével és alkalmazásával kapcsolatos néhány probléma áttekintése.

A kutatás célja és a determinációs együttható szerepe

Az R² kiszámítása és közlése úgyszólván reflexszerû eljárás a legtöbb kutatónál és eközben rendszerint fel sem merül a kérdés: indokolt-e egyáltalán a mutató használata. A válasz erre a kérdésre alapvetõen függ a kutatás céljától. Amennyiben a vizsgálat valamely jelenség elõrejelzésére irányul, akkor nyilvánvalóan nem mellékes, hogy a magyarázó változó alapján mennyire pontosan tudjuk meghatározni a függõ változó értékét; mennyire tudjuk leszorítani a becslési vagy elõrejelzési hibát. Ilyenkor valóban indokolt lehet a determinációs együttható figyelembevétele, az R² ugyanis többnyire arra utal, hogy a függõ változónak a magyarázó változó ismeretében megjósolt értéke kevéssé tér csak el a ténylegestõl, vagyis a becslési hiba viszonylag csekély.² Hamarosan látni fogjuk azonban, hogy az R²nagysága nem csupán e hiba mértékétõl függ, s ezért ez a mutató csak korlátozottan alkalmas az elõrejelzés sikerességének mérésére.

Alapvetõen más a helyzet, ha a kutatás célja elméleti magyarázat ellenõrzése. Ilyenkor rendszerint tapasztalati következményeket fogalmazunk meg; olyan várakozásokat, amelyek azt fejezik ki, miként kell kinéznie a világnak akkor, ha az általunk kidolgozott magyarázat valóban igaz. Ha például annak az elképzelésnek a helyességét vizsgáljuk, amely szerint a neurózisnak a nõk körében tapasztalt nagyobb gyakoriságáért a két nem eltérõ társadalmi szerepei, a nõknek a nemek közötti munkamegosztásból eredõ nagyobb leterheltsége a felelõs, akkor ésszerûnek látszik arra számítani, hogy a férfiak és a nõk lelki egészségi állapota városban kevésbé tér el egymástól, mint falun, hiszen a nemi szerepek, a nemek közötti munkamegosztás városban minden bizonnyal kiegyenlítettebb, mint vidéken. Ez a várakozás vagy tapasztalati következmény - és számunkra ez most a fontos - három változó összefüggését, egymásra hatását írja le: nevezetesen azt, hogy a nem hatása a neurózisra függ a település típusától. Márpedig egy változó másikra gyakorolt hatását - e hatás nagyságát és irányát - a standardizálatlan regressziós együttható tükrözi; a determinációs együttható értéke ebbõl a szempontból teljesen közömbös.³ Egy alacsony R² legfeljebb arra utal, hogy a függõ változót az általunk vizsgált magyarázó változón kívül még egy sereg más tényezõ is befolyásolja; ez azonban lényegtelen, hiszen bennünket egy meghatározott oksági kapcsolat érdekel, s nem arra a lehetetlen, egyszersmind fölöttébb kétes értékû feladatra vállalkoztunk, hogy teljes körû leltárt készítsünk valamely jelenség okairól.

Az R² és a "magyarázó erõ"

A determinációs együtthatóról gyakran állítják, hogy a regressziós modell - illetve az abban szereplõ változók - magyarázó erejét fejezi ki. Ez a megfogalmazás kétségkívül jól hangzik (sokak számára éppen ezért igen vonzó), azonban meglehetõsen félrevezetõ, ugyanis összekeveri egymással a statisztikai és a tartalmi magyarázatot. Statisztikai értelemben megmagyarázni valamit annyit jelent, hogy a függõ változó teljes szóródásának minél nagyobb hányada esik a magyarázó változó egyes értékei vagy kategóriái közé, és minél kisebb hányada marad ezeken az értékeken vagy kategóriákon belül. Ebben a tisztán statisztikai értelemben az R² valóban a "megmagyarázott variancia" nagyságát jelzi; ennek azonban az égvilágon semmi köze a vizsgált jelenség tartalmi magyarázatához. Gondoljuk csak meg: ha magyarázó változóként magát a függõ változót használnánk, akkor az R² garantáltan a lehetõ legnagyobb, éspedig 1 lenne, vagyis a függõ változó teljes szóródását meg tudnánk "magyarázni". Mégis, aligha mondaná bárki, hogy ezáltal akár csak egyetlen lépéssel is közelebb jutottunk a vizsgált jelenség megértéséhez, tartalmi értelemben vett magyarázatához (lásd Lewis-Beck 1993: 16; King 1986: 677).

Az, hogy a determinációs együttható azonosítása a magyarázó erõvel mennyire téves lehet, azt az immáron klasszikusnak mondható tankönyvi példával is érzékeltethetjük. A születések száma egy adott településen elég nagy pontossággal megbecsülhetõ a házak kéményein fészkelõ gólyák száma alapján; ha lefuttatunk egy regressziót, amelyben a magyarázó változó a gólyák száma, a függõ változó pedig a születések száma, akkor az R² értéke valószínûleg meglehetõsen magas lesz. De következik-e ebbõl, hogy a gólyák száma magyarázza - tartalmi értelemben - a termékenység szintjét? Nyilvánvalóan nem; statisztikai magyarázó erejét - ami a magas R²-ben tükrözõdik - ez a változó kizárólag annak köszönheti, hogy erõsen korrelál a születésszám valódi meghatározójával, a település típusával. Falun egyrészt gyakoribb a gólya, mint városban, másrészt itt a termékenység is eleve magasabb.

Vegyük észre, hogy pusztán az elõrejelzés szempontjából ez a probléma voltaképpen nem probléma: ebben a tekintetben tökéletesen mindegy, hogy a magyarázó változó valóban oka-e a függõ változónak, vagy az összefüggés látszólagos csupán (Cook-Campbell 1979: 296-297; Elster 1997: 18). Sõt, mivel a valódi oksági tényezõk gyakran nehezebben mérhetõk, mint a velük korreláló egyéb változók, tisztán gyakorlati megfontolásból ez utóbbiak alkalmasint még hasznosabbak is lehetnek. Egészen más a helyzet, ha nem elõrejelzésrõl, hanem magyarázatról van szó. Ekkor már távolról sem közömbös, mi húzódik meg a nagy R² mögött: tényleges oksági hatás vagy hamis kapcsolat. Ennek megfelelõen ekkor már nagyon is tudatában kell lenni annak, hogy a determinációs együttható magas értéke egyáltalán nem feltétlenül utal valódi oksági magyarázatra.

Még egy dolgot érdemes megemlíteni ezen a ponton. A determinációs együtthatót gyakran használják a változók relatív - egymáshoz viszonyított - magyarázó erejének megállapítására. Ez az alkalmazás rendszerint - bár nem szükségszerûen - a lépésenkénti regresszióhoz kötõdik; olyan eljáráshoz, ami - ha lehet - még kétesebb értékû, mint az R² nyakló nélküli növelése. A lépésenkénti regresszió általában annak alapján állít fel fontossági sorrendet az egyes magyarázó változók között, hogy milyen mértékben járulnak hozzá a determinációs együttható növeléséhez. Ezzel nem is volna különösebb baj, ha a magyarázó változók függetlenek lennének egymástól; ekkor ugyanis minden változóhoz egyértelmûen hozzá lehetne rendelni azt az R²-növekményt vagy "magyarázó erõt", ami kizárólag neki tulajdonítható. A gyakorlatban azonban a magyarázó változók rendszerint többé-kevésbé erõsen korrelálnak egymással. Ebben az esetben a "magyarázó erõt" már nem lehet egyértelmûen hozzárendelni az egyes változókhoz; túl azon a mértéken, ami minden változót a "saját jogán" megillet, van egy olyan rész is, ami közös, ami egyiknek sem kizárólagos "tulajdona". Az, hogy ezt a közös "magyarázó erõt" melyik változó kapja meg, a változók bevonásának sorrendjétõl függ: az a változó, amely elsõként kerül be a modellbe, saját részén kívül "magával viszi" ezt a közös részt is, és így aránytalanul fontosnak, jelentõsnek látszik; annak a változónak pedig, amelyet másodikként vonunk csak be, a közös részbõl már semmi sem marad, és így a ténylegesnél kevésbé fontosnak tûnik. Korreláló magyarázó változók esetén tehát az R²-növekmény mértéke nem használható annak megítélésére, melyik változó fontosabb, melyiknek nagyobb a "magyarázó ereje", ez ugyanis teljes egészében attól függ, milyen sorrendben vonjuk be õket az elemzésbe. (Minderrõl bõvebben lásd Lewis-Beck 1978; Pedhazur 1982: 167-171; Kennedy 1992: 63-64.)

Hogy mennyire hibás következtetésekhez vezethet, ha az R²-növekmény alapján foglalunk állást egy változó súlyáról, szerepérõl, azt a gólyákkal és a születések számával kapcsolatos iménti példával is érzékeltethetjük. Tegyük föl, hogy a termékenység szintjét két, egymással korreláló változóval: a gólyák számával és a település típusával próbáljuk megmagyarázni, és arra vagyunk kíváncsiak, e két tényezõ közül melyik a fontosabb. Tegyük föl továbbá, hogy valamilyen oknál fogva - mondjuk, apró mérési hiba vagy más ehhez hasonló jelentéktelen dolog miatt - a gólyák száma hajszálnyival erõsebben korrelál a termékenységgel, mint a másik magyarázó változó, a település típusa. Ebben a helyzetben valószínûleg a gólyák száma kerül be elsõként a modellbe - hiszen a beválasztás szempontja az elsõ szakaszban általában a függõ változóval való egyszerû korreláció mértéke -, magával vive annak a közös "magyarázó erõnek" a teljes egészét is, amely pedig részben a másik változót, a településtípust illetné meg. Ez utóbbi változónak így aztán már semmi sem marad a közös "magyarázó erõbõl", és ennek megfelelõen kevésbé fontosnak, kisebb "magyarázó erejûnek" látszik. Történik mindez annak ellenére, hogy oksági szempontból nyilvánvalóan épp a településtípus a fontos, és a gólyák száma a lényegtelen. Ha tehát pusztán az R²-növekmény alapján döntünk, akkor kihagyjuk a valódi oksági tényezõt, és bevonjuk azt a változót, amelynek a hatása látszólagos csupán.

Az R² és az "illeszkedés szorossága"

Másik gyakori nézet szerint a determinációs együttható a regressziós modell illeszkedését méri; azt, hogy a regresszió segítségével a függõ változó értékére adott becslések mennyire esnek közel a tényleges értékekhez; vagy - képszerûbben fogalmazva - hogy az adatpontok mennyire "simulnak rá" a regressziós egyenesre. Láttuk, hogy bár olyan vizsgálatokban, amelyek elméleti magyarázat ellenõrzésére irányulnak, ennek a dolognak nincs túl nagy jelentõsége, azokban a kutatásokban, amelyeknek célja az elõrejelzés, nem lényegtelen a becslések pontossága. Ilyen esetben tehát valóban szükség lehet az illeszkedés valamiféle mutatójára, kérdés azonban, az R²-e a legalkalmasabb erre a feladatra.

Az általános vélekedéssel ellentétben a determinációs együttható csak korlátozottan használható a regressziós modell illeszkedésének mérésére. E mutató értéke ugyanis nem csupán attól függ, mennyire szorosan tömörülnek az adatpontok a regressziós egyenes körül - vagyis mennyire kicsi a becslési hiba -, hanem attól is, mekkora a magyarázó változó szórása. Ugyanolyan illeszkedés nagyobb R²-et eredményez, ha a magyarázó változó értékei szélesebb sávban szóródnak. A szórásnak ez a hatása világosan kitûnik az alábbi egyenlõségbõl, amelyben a függõ változó becsült értéke, , illetve a függõ, illetve a magyarázó változó átlaga, b₁ pedig a magyarázó változó hatását kifejezõ standardizálatlan regressziós együttható:⁴

(1)

Látható, hogy a regressziónak tulajdonítható eltérésnégyzet-összeg - ami a bal oldalon szerepel, s ami nem más, mint a determinációs együttható számlálója - függ a magyarázó változó szóródásától, ami a jobb oldalon áll. Feltéve, hogy b₁ értéke nem módosul, minél szélesebb sávban szóródnak az X értékek, annál nagyobb a regressziónak tulajdonítható eltérésnégyzet-összeg, és így - amennyiben a reziduális eltérésnégyzet-összeg állandó - annál nagyobb az R² értéke is.

Túl a tisztán matematikai bizonyításon, érdemes ezt a kérdést a kutatási gyakorlat oldaláról is szemügyre venni. A társadalomtudományokban viszonylag ritkán adódik alkalom kísérletezésre, a magyarázó változó aktív befolyásolására; rendszerint kénytelenek vagyunk beérni a passzív megfigyeléssel, a változó tõlünk függetlenül kialakult értékeinek puszta feljegyzésével. A mintavétel révén olykor mégis lehetõségünk van arra, hogy a magyarázó változó eloszlását módosítsuk. Ezt tesszük például akkor, amikor szándékosan olyan eseteket vonunk be az elemzésbe, amelyek a magyarázó változó szélsõ pontjait képviselik, vagy amikor egy dichotóm magyarázó változó kategóriáiból azonos számú esetet választunk ki. Mindezek a mintavételi "trükkök" növelik a magyarázó változó szórását⁵, ezen keresztül pedig a determinációs együttható értékét.

A mintavételnek ezt a hatását jól szemléltetik Blalock (1964: 114-124), Ezekiel és Fox (1970: 18. fejezet), valamint Weisberg (1985: 74-76) munkái, amelyekben a szerzõk mesterségesen módosítják a magyarázó változó szórását, majd megvizsgálják, miként befolyásolja ez a különbözõ statisztikai mutatók értékét. Ez a fajta szimuláció vagy módszertani kísérlet azért is tanulságos, mert rávilágít arra, hogy miközben az R² értéke számottevõen ingadozik aszerint, hogy széles sávban szóródnak a magyarázó változó értékei, addig a reziduumok szórása - a regressziós becslés standard hibája - nagyjából állandó marad. Ez utóbbi mutató tehát nem függ szisztematikusan a magyarázó változó szórásától⁶, és így a determinációs együtthatónál alkalmasabbnak tûnik a regressziós modell illeszkedésének, a becslési hiba nagyságának a mérésére.⁷ A reziduális szórás további elõnye, hogy az illeszkedés "jóságát" a függõ változó természetes mértékegységében fejezi ki - ellentétben az R² -tel, ami dimenzió nélküli mutató, és ezért általában nehezebben kapcsolható közvetlenül a vizsgált jelenséghez (Achen 1982: 61-64).

Eddig arról beszéltünk, hogy amennyiben a mintavétel folyamán képesek vagyunk mesterségesen növelni a magyarázó változó szórását, akkor a determinációs együttható szinte tetszõlegesen változtatható; épp ezért ilyenkor rendkívül körültekintõnek kell lenni e mutató értelmezésekor. Indokolt lehet azonban az óvatosság fordított esetben is. Gyakori jelenség, hogy a magyarázó változó szórása éppenséggel túl alacsony, és nincs lehetõség a növelésére. Ez a helyzet akkor, ha a magyarázó változó ritka elõfordulású eseményre vonatkozik, például arra, hogy a vizsgált személy követett-e el fiatal korában öngyilkossági kísérletet vagy súlyosabb bûncselekményt. Az ilyen személyek a teljes mintának vélhetõleg viszonylag csekély hányadát képezik csupán, vagyis - technikailag kifejezve - a magyarázó változó eloszlása meglehetõsen ferde: az esetek zöme az egyik kategóriában összpontosul, és a másik kategóriába csak kevés megfigyelés tartozik. Ennek következtében a magyarázó változó szórása viszonylag kicsi lesz, hiszen egy dichotóm változó varianciája egyenlõ a két kategória relatív gyakoriságának a szorzatával. Minél eltérõbbek a relatív gyakoriságok - minél ferdébb a változó eloszlása -, annál kisebb a szorzat értéke, azaz annál csekélyebb a szórás. Ritka események hatásának vizsgálatakor tehát a determinációs együttható értéke különösen csalóka lehet: a hatás - amit a standardizálatlan regressziós együtthatóval vagy annak megfelelõ más mutatóval mérhetünk - nagy lehet annak ellenére, hogy az R²viszonylag alacsony (errõl bõvebben lásd Glenn-Shelton 1983).

Az R² és a "tökéletes modell"

Gyakran találkozhatunk azzal a nézettel, miszerint a determinációs együttható a regressziós modell "tökéletességét" vagy "teljességét" jelzi. Minél magasabb az R² értéke, annál jobb - úgymond - a modell; annál hívebben tükrözi a tényleges összefüggéseket. Valóban, sok kutató egyfajta minõségtanúsító pecsétként kezeli a determinációs együtthatót; olyan védjegyként, amely önmagában szavatolja az elvégzett munka értékét, a felállított modell helyességét. Ez a felfogás azonban alapvetõen téves, az a törekvés pedig, ami ebbõl a felfogásból fakad, és ami az R² mindenáron való növelésére irányul, teljesen értelmetlen. Elõször is, tökéletes modell nincs; nem azért, mert a tökéletesség elérhetetlen, hanem azért, mert a modell definíció szerint a valóság leegyszerûsített és így szükségképpen pontatlan képe (King 1991: 1048). Olyan kép, amely bizonyos részeket tudatosan kiemel, felnagyít, másokat viszont szándékosan árnyékban hagy. Minden modell meghatározott elméleten nyugszik és ennek az elméletnek a hangsúlyait tükrözi. És minden modell csak egy másik, a sajátunkéval versengõ elmélet talajáról bírálható; nem pedig annak alapján, hogy az R² értéke túlságosan alacsony. Amikor a regressziós egyenletet újabb változókkal bõvítjük, a cél nem a determinációs együttható növelése; nem valamiféle teljes vagy végsõ modell elérése, hanem a különféle alternatív magyarázatok kiküszöbölése (Achen 1982: 52). Az, hogy valamely modell jó vagy rossz, elméleti érveléssel dönthetõ csak el; az R²-nek ebbe nincsen beleszólása. Baj is volna, ha lenne; ha gépies számításokkal lehetne pótolni a tartalmi gondolkodást.

Azt a tényt, hogy a regressziós modell "jósága" mennyire nem a determinációs együttható értékén múlik, egy példával érzékeltethetjük. Tegyük föl, hogy olyan képzési program hatékonyságát vizsgáljuk, amelynek célja a munkanélküliek elhelyezkedésének az elõsegítése. Tegyük föl továbbá, hogy a részvétel a programban önkéntes: azok az állástalanok, akiket érdekel a dolog, igénybe veszik a felkínált lehetõséget, a többiek pedig kimaradnak belõle. A két csoportot összehasonlítva megállapítjuk, hogy azok, akik részt vettek a képzésben, átlagosan rövidebb idõ alatt találtak újra munkát, mint azok, akik nem vettek részt. Tudjuk persze, hogy épp az önkéntesség miatt ez az eredmény nem bizonyítja a képzés hatékonyságát: elképzelhetõ, hogy azok, akik a részvétel mellett döntöttek, eleve jobban törekedtek az újbóli elhelyezkedésre, s így a program nélkül is könnyebben találtak volna állást. Az is lehetséges, hogy a résztvevõk fiatalabbak és iskolázottabbak - vagyis olyan tulajdonságokkal rendelkeznek, amelyek önmagukban megkönnyítik az elhelyezkedést. Ahhoz, hogy a képzés tényleges hatását megállapítsuk, mindezeket a tulajdonságokat kontrollváltozóként be kell vonni az elemzésbe. Ezzel azonban - a magyarázó változók körének kibõvítésével - egyszersmind a determinációs együttható értékét is minden valószínûség szerint jócskán megnöveljük, vagyis modellünk - pusztán az R² nagysága alapján ítélve - igencsak jónak látszik.

Képzeljük most el, hogy a részvétel a programban nem önkéntes, hanem randomizálást alkalmazva a véletlenre bízzuk annak eldöntését, hogy az állástalanok közül ki kerül a képzésben részesülõk csoportjába. Ebben az esetben a programban részt vevõk és az abból kimaradók összetétele minden lehetséges szempontból nagyjából azonos lesz - körülbelül ugyanannyi lesz a fiatalok és az idõsek, az iskolázottak és az iskolázatlanok aránya, és ugyanígy durván azonos lesz azoknak az aránya, akik eleve nagyobb igyekezettel próbálnak elhelyezkedni. Mi következik ebbõl? Az, hogy a program tényleges hatásának megállapítása szempontjából ezúttal nincs szükség a korábban használt kontrollváltozókra, hiszen most sem az életkor, sem az iskolázottság, sem semmilyen más tulajdonság nem korrelál a képzésben való részvétellel.⁸ Ez azonban - a kontrollváltozók kihagyása - egyszersmind azt is jelenti, hogy az R² értéke valószínûleg lényegesen alacsonyabb lesz, mint az elõzõ esetben, amikor maguk a munkanélküliek döntötték el, részt vesznek-e a programban. De vajon mondhatjuk-e azt ennek alapján, hogy ez a második modell rosszabb, kevésbé "tökéletes", mint az elsõ? Aligha; sõt, minden bizonnyal épp az ellenkezõje az igaz, hiszen az oksági összefüggések feltárása szempontjából a randomizált vizsgálatoknál nehéz tökéletesebbet elképzelni.

A nagy R² azonosítása a "tökéletes" modellel egy másik szempontból is alapvetõen hibás. A determinációs együttható növelésének lázában a kutatók a regressziós modellt gyakran az adatpontok véletlenszerû ingadozásaihoz illesztik (Kennedy 1992: 70), figyelmen kívül hagyva, hogy minden adathalmaz csupán minta, egyike a számtalan lehetséges adathalmaznak. Ha történetesen másik adathalmazt figyeltünk volna meg, akkor - a véletlen szeszélye folytán - az adatpontok eloszlása némileg más képet mutatna, és ehhez az eloszláshoz már aligha illeszkedne ugyanolyan jól a modellünk. Akkor hát keressünk másik modellt, ami ehhez az adathalmazhoz hibátlanul illeszkedik? De még újabb mintához már ez a modell sem illeszkedne teljesen - és így tovább a végtelenségig. Nem sokat ér az a "tökéletes" modell, az a nagy R² , ami csak egyetlen konkrét mintára érvényes. A modell illesztése során mindig csak addig a mértékig érdemes teljességre, tökéletességre törekednünk, ameddig az adatpontok még a vizsgált jelenségben rejlõ törvényszerûséget tükrözik - azt, ami mintáról mintára nagyjából állandó -, nem pedig a puszta esetlegességet, a véletlen ingadozást. Ez is csak azt a régi bölcsességet igazolja, hogy a kevesebb néha több.

Ezt a bölcsességet hagyják figyelmen kívül egyebek között azok, akik sportot ûznek a minél pontosabb görbeillesztésbõl. Õk nem elégszenek meg az egyenessel, hanem másodfokú görbével próbálkoznak; majd a másodfokú görbét felcserélik harmadfokúra; aztán a harmadfokút egy negyedfokúra; míg végül eljutnak az n-1-ed fokú görbéig, amely az n számú adatpont mindegyikén átmegy, vagyis tökéletes illeszkedést, csodálatosan magas R²-et nyújt - csak éppen teljesen értelmetlen, mivel kizárólag az adott mintát, az éppen megfigyelt n esetet képviseli, és így semmi értéke nincs "annak az összefüggésnek a feltárásában, amely valószínûleg érvényes abban a sokaságban, amelybõl a mintában szereplõ megfigyeléseket vettük" (Ezekiel-Fox 1970: 119; lásd még Lieberson 1985: 93).

Még egy dolgot érdemes ezen a ponton megemlíteni. Korábban arról beszéltünk, hogy azokban a kutatásokban, amelyeknek célja egy jelenség elõrejelzése, a nagy R² általában örvendetes tény, és valóban, a legtöbb tankönyv a sikeres elõrejelzés feltételeként említi a determinációs együttható magas értékét (például Lewis-Beck 1993: 16). Amikor azonban a nagy R² pusztán annak eredménye, hogy modellünket az éppen megfigyelt adatok esetlegességeihez igazítottuk - vagy, ahogyan sokszor nevezik, tõkét kovácsoltunk a véletlenbõl (Kennedy 1992: 70) -, akkor a nagy R² egyáltalán nem feltétlenül garantálja, hogy a modell az adott konkrét mintán kívül is ugyanolyan tökéletes lesz. Sõt, Mayer elemzései éppenséggel azt bizonyítják, hogy "amennyiben olyan hipotézisek érdekelnek bennünket, amelyek a minta által felölelt idõszakon túl is érvényesek, akkor az illeszkedés mutatói igen gyenge iránymutatást jelentenek csupán" (Mayer 1975: 882).

Azt, hogy mennyire gyenge lehet ez az iránymutatás, megtudhatjuk Lieberson (1985: 97-99) találó példájából. Képzeljük el, hogy nagy számú szabályos pénzdarabot dobunk fel, mindegyiket egymás után tízszer. Ha megszámoljuk, a tízbõl hány alkalommal kaptunk "fej"-et, az eredmény érménként változó lesz. Lesznek pénzdarabok, amelyek esetében a "fej"-ek száma csupán kettõ vagy három - az elméletileg várt öt helyett -, lesznek azonban olyanok is, amelyek esetében nyolc, kilenc, sõt akár tíz "fej"-et kapunk. Tegyük föl, hogy megpróbáljuk megmagyarázni ezt az ingadozást; azt, hogy a "fej"-ek száma egyes érméknél miért olyan alacsony, másoknál pedig miért olyan magas. Ha elég kitartóak és türelmesek vagyunk, rábukkanhatunk a pénzdaraboknak azokra az egyedi vonásaira, amelyek összefüggenek a "fej"-ek számával. Ilyen vonás lehet például az, hogy mikor készült az adott érme, hol gyártották, a számos pénzdarab közül hányadikként dobtuk fel stb. Bármily szorgalmasak vagyunk is azonban, bármennyi tulajdonságot veszünk is figyelembe, erõfeszítésünknek az égvilágon semmi értelme: azok az érmék ugyanis, amelyek az általunk elvégzett dobássorozatban nagy számú "fej"-et eredményeztek, és amelyeknek a tulajdonságait oly lázasan kutattuk, újabb sorozatban pontosan ugyanakkora valószínûséggel eredményeznek nagy számú "fej"-et, mint azok a pénzdarabok, amelyek esetében az elsõ körben a "fej"-ek száma igen alacsony volt. Míg tehát magyarázó modellünk kiválóan illeszkedik az adott konkrét dobássorozat eredményéhez, az érmék tulajdonságainak szerepét, elõrejelzõ képességét illetõen teljesen értéktelen. Mindennek alapján Lieberson joggal vonja le a következtetést, hogy a "megmagyarázandó variancia" szükséges mértékét alkalmasint túl is lehet becsülni, és ez a túlbecsülés kedvezõtlen következményekkel járhat. Egyebek között arra ösztönzi a kutatót, hogy ad hoc magyarázatok kitalálásával növelje az R² értékét, vagyis olyan eljárásra csábít, aminek hosszú távon nincs semmi haszna.

Az R² és a megfigyelések aggregálása

Bizonyára sokaknak feltûnt már, hogy azokban a vizsgálatokban, amelyek régiókat vagy országokat hasonlítanak össze egymással, az R² értéke rendszerint lényegesen magasabb, mint az egyének megkérdezésén alapuló kérdõíves kutatásokban. Ennyivel okosabbak lennének a területi elemzéseket végzõk, mint azok, akik a survey módszerét választják? Ennyivel jobb, tökéletesebb modelleket tudnának felállítani? A kérdés bonyolult, az azonban egyértelmû, hogy önmagában a magasabb R² nem bizonyítja ezt. Ez ugyanis alapvetõen nem a kutató képességeinek, hanem az adatok aggregálásának köszönhetõ: amikor az egyénekre vonatkozó megfigyeléseket csoportokba vonjuk össze, és az eredetiek helyett ezekkel a csoportosított adatokkal dolgozunk, az adatpontok általában a korábbinál jobban "rásimulnak" a regressziós egyenesre, növelve ezzel a determinációs együttható értékét. Az aggregálásnak ezt a hatását szemlélteti az alábbi két, hipotetikus adatokon alapuló rajz. Az 1. ábra 5 különbözõ régióban lakó 20 egyén iskolai végzettségének és jövedelmének az adatait tartalmazza; az adatpontok melletti számok a lakóhelyet - a régió sorszámát - jelölik.

1. ábra
Egyénekre vonatkozó adatok

Látható, hogy az ugyanabban a régióban élõk jövedelme különbözik egymástól; az azonos sorszámot viselõ egyénekre vonatkozó adatok szóródnak az adott régió átlaga körül. Ez a szóródás "tûnik el" akkor, amikor az adatokat régiónként aggregáljuk, s az egyéni adatok helyett a régiók átlagait használjuk. Ennek eredménye pedig az a rendkívül szoros illeszkedés, amit a 2. ábra mutat, és amit az R² magas értéke (0.87) is tükröz. (Érdemes megjegyezni, hogy miközben a determinációs együttható két és félszeresére nõtt, a standardizálatlan regressziós együttható alig változott. Általában elmondható, hogy ez utóbbi mutató kevésbé érzékeny az adatok aggregálására.)⁹

2. ábra
Aggregált adatok

Az aggregálás imént bemutatott hatása mögött általánosabb összefüggést ismerhetünk fel. A determinációs együttható értékét döntõen meghatározza, hogy mekkora azoknak az egyéb tényezõknek a súlya, szerepe, amelyek szintén befolyásolják a függõ változót, ám nem korrelálnak az általunk vizsgált magyarázó változóval (Darlington 1990: 19). Ha ezeknek az egyéb tényezõknek - amelyeket a regressziós modell hibatagjában foglalunk össze, és amelyeket az elemzés során "zavaró változókként" kezelünk - csökken a súlya, akkor,- feltéve, hogy minden más változatlan, az R² értéke nõ. Az adatok aggregálása az elõzõ példában éppen ilyen csökkenést eredményezett: az egyes egyénekre vonatkozó megfigyelések régiónkénti átlagolásával mintegy kiszûrtük vagy közömbösítettük a jövedelmet meghatározó számtalan tényezõ jelentõs részét (Blalock 1964: 99-101, 112-114).¹⁰

Befejezés

Áttekintve a determinációs együtthatóval kapcsolatos különféle értelmezéseket, rávilágítva e mutató fogyatékosságaira, befejezésül hasznos lehet szemügyre venni egy olyan formulát, amely mintegy összefoglaló képet nyújt az R²-et befolyásoló tényezõkrõl, és ezáltal segíthet jobban megérteni e mutató természetét.¹¹ Ehhez elsõ lépésként idézzük fel az (1) egyenlõséget:

Emlékezzünk, ennek az egyenlõségnek a bal oldala nem egyéb, mint a regressziónak tulajdonítható eltérésnégyzet-összeg, vagyis az R² számlálója.

Ismeretes, hogy a teljes eltérésnégyzet-összeg - tehát az R² nevezõje - két részbõl, a regressziónak tulajdonítható és a maradék vagy reziduális négyzetösszegbõl áll:

Helyettesítsük most be a (2) egyenlõségbe az (1) egyenlõséget:

Mindezek alapján a determinációs együtthatót a következõképpen írhatjuk fel:

Szavakkal ezt így fogalmazhatjuk meg:

Ebbõl jól látható, hogy a determinációs együtthatóban háromféle tényezõ keveredik: a magyarázó változó hatása, ennek a változónak a szóródása, és végül a regressziós modell illeszkedésének a "jósága" vagy szorossága. Éppen mert egyszerre ennyi különbözõ tényezõtõl függ, az R² ezek egyikének mérésére sem igazán alkalmas. Sem a magyarázó változó hatását, annak nagyságát nem tükrözi pontosan, sem pedig a regressziós modell illeszkedését. Mindkét feladatra jobb mutatók állnak rendelkezésünkre: a hatás nagyságának mérésére a standardizálatlan regressziós együttható, az illeszkedésére pedig a becslés standard hibája. Mindezek fényében az a tisztelet, ami a determinációs együtthatót rendszerint övezi, nem tûnik megalapozottnak; népszerûségét ez a mutató alighanem inkább retorikai értékének, mintsem tényleges teljesítményének köszönheti.

Jegyzetek

* A cikk egy korábbi változatához fûzött megjegyzéseiért köszönettel tartozom Hegedûs Ritának, Lengyel Györgynek és Róna-Tas Ákosnak.
1. A szakirodalom gyakran különbséget tesz r²és R², "egyszerû" és többszörös determinációs együttható között. Mivel mondanivalóm egyformán vonatkozik mindkét mutatóra, fölöslegesnek ítéltem e megkülönböztetés hangsúlyozását, és az "R²", illetve a "determinációs együttható" kifejezéseket felváltva, azonos értelemben használtam. Ez a némi pongyolaság - úgy gondolom - nem okoz majd félreértést, viszont gördülékenyebbé teszi a szöveget.
2. Az elõrejelzés problémakörén belül speciális esetnek tekinthetõ az a bizonyos fokig módszertani jellegû feladat, amikor egy változó valamilyen okból hiányzó értékeit igyekszünk pótolni más változóknak és az e változók hatását kifejezõ regressziós együtthatóknak a felhasználásával. A regresszióelemzésnek erre a fajta alkalmazására példa a foglalkozások presztízspontszámának meghatározása a foglalkozások egyéb jellemzõi alapján (Loether-McTavish 1980: 362-363), de az ún. kisterületi becslésnél is találkozunk ezzel a megközelítéssel (Marton 1985: 68-69; Ericksen 1973).
3. Ezt még azok a szerzõk is elismerik, akik egyébként védelmükbe veszik a determinációs együtthatót. Lewis-Beck és Skalaban például így fogalmaz: "amikor a kutató X [változó] hatására kíváncsi, az R² -nek kevés haszna van. Ebben az esetben a figyelmet a megfelelõ regressziós együtthatóra és annak standard hibájára kell fordítani" (Lewis-Beck-Skalaban 1991: 169).
4.Az egyenlõség bizonyításához elõször is írjuk föl a regressziós egyenletet:

ahol a függõ változó becsült értéke, X a magyarázó változó, b₀ és b₁ pedig a regressziós együtthatók. Mivel

ahol és a magyarázó, illetve a függõ változó átlaga, ezért

Emeljük ki a b₁ együtthatót, Y átlagát pedig vigyük át a bal oldalra:

Végül emeljük négyzetre és összegezzük minden megfigyelésre az egyenlõség mindkét oldalát:

5. Egy dichotóm változó varianciája ugyanis nem más, mint a két kategória relatív gyakoriságának a szorzata; ez a szorzat pedig akkor maximális, ha az összeszorzandó relatív gyakoriságok azonosak.
6. Ennek feltétele azonban a homoszkedaszticitás, vagyis az, hogy a hiba szórása a magyarázó változó minden értéke esetében azonos legyen.
7. Mindazonáltal, ha a becslési hibának közvetlen gyakorlati jelentõsége van, akkor a regressziós becslés standard hibája nem szükségképpen a legjobb választás. Ez a mutató ugyanis a megfigyelt és a becsült értékek közötti eltérések négyzetén alapul, és ily módon nagyobb súlyt ad a nagyobb, és kisebb súlyt ad a kisebb eltéréseknek. Elképzelhetõ azonban, hogy a becslési hibák gyakorlati következményei - például a velük járó költségek - szempontjából minden hiba egyformán lényeges; ha ez a helyzet, akkor az eltérések négyzete helyett indokoltabb lehet azok abszolút értékét használni. (A négyzetes és az abszolút hibák közötti választás kérdésérõl bõvebben lásd Berk 1986; az elõrejelzési hibák költségeinek figyelembevételérõl általában pedig lásd Goodman 1966.)
8. Más kérdés, hogy a program hatását kifejezõ regressziós együttható standard hibájának csökkentése érdekében a randomizálás ellenére is hasznos lehet e kontrollváltozók szerepeltetése, ez ugyanis mérsékli a reziduális szórást, ezen keresztül pedig a standard hibát.
9. Ez azonban nem jelenti azt, hogy az aggregálás sohasem befolyásolja a standardizálatlan regressziós együttható értékét. Amennyiben az adatok csoportosítása nyomán specifikációs hiba jön létre, ez a mutató is torzul. Az aggregálásnak a különféle statisztikai mutatókra gyakorolt hatásáról bõvebben lásd például Blalock 1964; Langbein-Lichtman 1978; Hanushek et al. 1974.
10. Egy másik módja annak, hogy a "zavaró változók" szerepét mérsékeljük, s ezáltal a vizsgált magyarázó változó relatív súlyát, fontosságát növeljük, a függõ változó pontosabb mérése.
11. Az alábbi levezetéshez az ötletet Christopher Achen (1982: 63) tanulmánya adta.

Hivatkozások

Achen, Ch. 1982. Interpreting and Using Regression. Beverly Hills-London: Sage Publications

Berk, R. A. 1986. How Aapplied Sociology Can Ssave Basic Sociology. Unpublished manuscript.

Blalock, H. 1964. Causal Inferences in Nonexperimental Research. Durham, N. C.: University of North Carolina Press

Cook, Th.-D. T. Campbell 1979. Quasi-Experimentation. Design and Analysis Issues for Field Settings. Boston etc.: Houghton Mifflin Co.

Cramer, J. S. 1987. Mean and Variance of R² in Small and Moderate Samples. Journal of Econometrics, 35, 253-266.

Darlington, R. 1990. Regression and Linear Models. New York etc.: McGraw-Hill Publishing Co.

Elster, J. 1997. A társadalom fogaskerekei. Osiris Kiadó

Ericksen, E. P. 1973. A Method for Combining Sample Survey Data and Symptomatic Indicators to Obtain Estimates for Local Areas. Demography, 10, 137-160.

Ezekiel, M.-K- Fox 1970. Korreláció- és regresszió-analízis. Lineáris és nem-lineáris módszerek. Budapest: Közgazdasági és Jogi Könyvkiadó

Glenn, N. D.-B. A. Shelton 1983. Pre-Adult Background Variables and Divorce: a Note of Caution about Overreliance on Explained Variance. Journal of Marriage and the Family, 45: 405-410.

Goodman, L. 1966. Generalizing the Problem of Prediction. In: P. F. Lazarsfeld-M. Rosenberg (eds.) The Language of Social Research. 5^th ed., Toronto, 277-281.

Hanushek, E. A. et al. 1974. Model Specification, Use of Aggregate Data, and the Ecological Correlation Fallacy. Political Methodology, 1, 89-107.

Kennedy, P. 1992. A Guide to Econometrics. Oxford, UK.-Cambridge, USA Blackwell Publishers

King, G. 1986. How Not to Lie with Statistics: Avoiding Common Mistakes in Quantitative Political Science. American Journal of Political Science, 30, 666-687.

- 1991. "Truth" is Stranger than Prediction, more Questionable than Causal Inference. American Journal of Political Science, 35, 1047-1053.

Langbein, L. I.-A. J. Lichtman 1978. Ecological Inference. Beverly Hills-London: Sage Publications

Lewis-Beck, M. 1978. Stepwise Regression: a Caution. Political Methodology, 5, 213-240.

- 1993. Applied Regression: an Introduction. In: M. Lewis-Beck (ed.) Regression Analysis. International Handbooks of Quantitative Applications in the Social Sciences,. 2. London-Thousand Oaks, CA-New Delhi: Sage Publications

Lewis-Beck, M.-A. Skalaban 1991. The R-Squared: Some Straight Talk. Political Analysis, 2, 153-171.

Lieberson, S. 1985. Making it Count. The Improvement of Social Research and Theory. Berkeley-Los Angeles-London: University of California Press

Loether, H. J.-D. G. McTavish 1980. Descriptive and Inferential Statistics: an Introduction. Boston etc.: Allyn and Bacon, Inc.

Marton Á. (szerk). 1985. Területi és egyéb szempontok szerint részletezett statisztikai mutatószámok becslése. Budapest: Központi Statisztikai Hivatal

Mayer, T. 1975. Selecting Economic Hypothesis by Goodness of Fit. Economic Journal, 85, 877-883.

Pedhazur, E. 1982. Multiple Regression in Behavioral Research. 2nd ed. Forth Worth etc.: Harcourt Brace Jovanovich College Publishers

Weisberg, S. 1985. Applied Linear Regression. 2nd ed. New York etc.: John Wiley & Sons