Anàlisi Bivariada - 1 Associació

1.1 Introducció

Acostumem a pensar que les hores que destinem a estudiar estan associades amb treure bones notes, que la democràcia està associada amb el desenvolupament, i que la interdependència està negativament associada amb el conflicte. En aquests tres casos diem que existeix una associació, perquè els valors d’una variable estan relacionats amb els valors d’una altra. Dit d’una altra manera, com que considerem que aquests fenòmens estan connectats, pensem que els valors d’una variable ens proporcionen informació sobre els valors de l’altra.

En aquest capítol veurem tres idees principals vinculades amb l’associació. Per començar, que una condició indispensable per parlar d’associació és que les dues variables tinguin variació en els seus valors. En segon lloc, que la principal mètrica de la qual disposem per determinar l’associació entre variables és la correlació. I, finalment, que a través de la informació que ens proporciona el coeficient de correlació podem calcular una altra mètrica que és el coeficient de determinació. A continuació, veurem aquestes tres idees, punt per punt.

1.2 Variació

Per examinar la relació entre dues variables, el primer punt que hem de tenir en compte és que les dues variables han de variar. Si només observem variació en una d’elles, difícilment en podrem concloure res. Encara que això pugui semblar obvi, és un error freqüent que porta a realitzar inferències equivocades.

Taula 1.1: No relació
	Vacuna	?
Virus	60	?
No virus	40	?

Taula 1.2: Relació bivariada
	Vacuna	No vacuna
Virus	60	80
No virus	40	20

Un dels exemples més clars el trobem a les vacunes. Fixem-nos amb la taula 1.1 del lateral. Hem tractat uns quants pacients amb la vacuna YZ, amb l’esperança que no s’infectessin amb el virus AB. No obstant això, el 60% dels pacients que s’ha tractat amb la vacuna s’ha contagiat amb el virus igualment, mentre que el 40% no ha agafat el virus. Amb aquesta informació podríem pensar que la vacuna no funciona, perquè hi ha hagut més persones contagiades que no pas no contagiades. Tanmateix, aquesta és una inferència equivocada perquè vulnera el principi que acabem d’assenyalar: per determinar l’associació entre dues variables, les dues variables han de variar necessàriament.

En aquest primer cas només tenim una sola variable: contraure el virus AB que, efectivament, sí que varia entre casos. Algunes persones poden contraure el virus i d’altres no. No obstant això, per treure alguna conclusió sobre l’efectivitat de la vacuna necessitem una segona variable que ens permeti comparar les persones vacunades i les persones no vacunades. A la taula 1.2 hem afegit aquesta segona variable, de manera que ara sí que podem establir algun tipus d’associació entre vacunar-se i contraure el virus. Resulta que entre els no vacunats amb YZ, un 80% ha agafat el virus, per la qual cosa, potser la vacuna sí té alguna mena d’efectivitat a l’hora de prevenir el contagi amb el virus AB.

Taula 1.3: No relació
	Bomb.	?
Pro-bel·licisme	65	?
Anti-bel·licisme	35	?

Taula 1.4: Relació bivariada
	Bomb.	No bomb.
Pro-guerra	65	70
Anti-guerra	35	30

Podem pensar en un cas més proper a les Relacions Internacionals. Suposem que volem mirar la relació entre patir bombardejos en una guerra i desenvolupar actituds probel·licistes. Els resultats d’una hipotètica enquesta a la població que ha sofert bombardejos mostrarien que un 65% dels enquestats té actituds probel·licistes i un 35% no en té (taula 1.3). Així, erròniament, podríem concloure que hi ha una associació entre patir bombardejos i desenvolupar aquest tipus d’actituds. Aquesta conclusió és errònia perquè hi hauria la possibilitat que la població no bombardejada, a qui no hem enquestat, tingués unes actituds semblants. Per tant, per inferir alguna cosa sobre la població bombardejada, l’haurem de comparar amb la població no bombardejada. Només així podrem establir algun tipus d’associació entre patir bombardejos i desenvolupar actituds probel·licistes. A la taula 1.4 veiem com un 70% de la població no bombardejada té actituds probel·licistes, per la qual cosa la conclusió a la que arribaríem, tenint en compte la segona variable, seria totalment contrària a la que hem formulat quan hem observat la taula anterior.

La variació en els fenòmens que estem estudiant és fonamental en qualsevol recerca, sigui un estudi comparat de pocs casos o en sigui un quantitatiu de molts casos. Sovint, cometem l’error de centrar-nos només en la variació en una de les variables i, en canvi, ens descuidem de seleccionar casos que també tinguin variació en l’altra variable d’interès (King et al., 1994, pp. 56–59).

Exercici 1.1 (Hi ha variació?) Troba les variables expressades en cada un dels enunciats següents i examina si hi ha variació entre elles:

Les revolucions socials ocorren quan les amenaces militars externes provoquen una divisió a l’elit que ostenta el poder i les comunitats desafavorides a dins del país se n’aprofiten per actuar.
Les persones que tenen molt d’èxit a les xarxes socials hi dediquen moltes hores cada setmana.
Per aconseguir bones notes a la universitat s’ha d’estudiar molt.

Resposta

En cap hi ha variació. 1) Desconeixem si les mateixes circumstàncies també es donen en societats on no hi ha hagut cap revolució. 2) No sabem si les persones que hi dediquen poques hores també tenen èxit. 3) Hauríem de saber si els que no estudien també aconsegueixen bones notes.

1.3 Correlació

Karl Pearson

Karl Pearson és un dels matemàtics que han contribuït més a l’evolució de l’estadística. Font: Wikipedia.

Quan dues variables tenen variació, podem mirar en quina magnitud es produeix aquesta variació. El coeficient de correlació de Pearson (també dit coeficient d’associació) és la mètrica més comuna que ens permet resumir la força de la relació entre dues variables. Aquest coeficient s’acosta a 1 si la relació entre les dues variables és molt forta i a 0 si la relació és molt dèbil. Més endavant aprendrem com obtenir aquesta xifra numèrica amb R. Per ara, n’hi haurà prou amb veure la lògica d’aquest coeficient.

Fixem-nos en la figura 1.1, que mostra la hipotètica relació entre dues variables categòriques: el sexe i el vot. Al gràfic de l’esquerra la relació entre les dues variables és forta, ja que la majoria de dones enquestades declaren votar Hillary Clinton, mentre que la major part dels homes declaren votar Donald Trump. El coeficient de correlació és de 0.74. Com que aquesta xifra s’acosta més a 1 que a 0, direm que la correlació és més aviat forta. En canvi, al gràfic del mig la correlació és molt més dèbil perquè les variables de sexe i vot estan menys relacionades, degut al coeficient de correlació, que és de 0.28. Per acabar, al gràfic de la dreta veiem que no hi ha cap tipus de relació entre sexe i vot: el coeficient de correlació és de 0.00.

Aquesta mateixa intuïció sobre com quantificar la correlació servirà per examinar la força de la relació entre dues variables numèriques, amb l’afegit que entre les variables d’aquest tipus també podem determinar la direcció de la relació. Per un costat, direm que la direcció és positiva quan les dues variables es mouen en la mateixa direcció. És a dir, quan una variable incrementa els seus valors, l’altra també ho fa. Per l’altre, direm que la relació és negativa quan les dues variables es mouen en direcció oposada. És a dir, quan els valors d’una variable incrementen, els valors de l’altra disminueixen. Si no apreciem una direcció positiva o negativa, direm que hi ha absència de correlació.

La figura 1.2 il·lustra diferents combinacions entre la força i la direcció de la relació. A la part superior de cada gràfic observem el coeficient de correlació (representat amb la lletra r, en minúscula). Si comencem per l’esquerra, al primer gràfic la relació entre variables és molt forta. A mesura que els valors d’una variable augmenten, els valors de l’altre també varien pràcticament amb la mateixa magnitud, de manera que els punts del gràfic dibuixen gairebé una línia recta ascendent. Això vol dir que la correlació és molt forta i positiva. En els altres gràfics, aquesta línia perfecta de punts es va desdibuixant, per la qual cosa la relació és menys forta. Al segon gràfic veiem una correlació forta i negativa i al tercer una correlació dèbil positiva, mentre que al darrer gràfic veiem absència de correlació.

Un exemple real d’associació entre dues variables numèriques el trobem a la figura 1.3, que ens mostra la relació entre la població de cada comtat dels Estats Units i el percentatge de vot a Donald Trump a les eleccions de 2016. La correlació (coeficient de -0.51) és més aviat dèbil. I tal com indica el signe del coeficient, és una relació negativa, ja que quanta més població hi ha en un comptat, menor és el percentatge de vot cap a Donald Trump.

Figura 1.3: Vot a Donald Trump segons població (2016).

Correlació, associació i causació

Per saber més de la distinció entre correlació, associació i causació, llegiu aquest breu article de Altman & Krzywinski (2015) a la revista Nature.

Exercici 1.2 (Guess the correlation) Practica les teves habilitats per endevinar la correlació entre dues variables numèriques a la web Guess the Correlation.

Cal tenir en compte, tanmateix, que el coeficient de correlació no és sempre d’entrada una bona mètrica. Quan la relació entre les dues variables dibuixa una forma curvilínia, com en els gràfics que veiem a la figura 1.4 de la dreta, la correlació no capta amb exactitud l’associació entre les dues variables. Per exemple, quan l’associació té forma d’U, la correlació és zero, mentre que si l’associació té forma d’arc o logarítmica, el coeficient de correlació serà més baix del que mostren els punts. En els tres casos l’associació és forta, però obtindrem un coeficient de correlació baix o inexistent perquè la relació no és lineal. Vegem alguns exemples d’estudis on apunten l’existència d’aquestes associacions:

La distribució de poder (representada a l’eix de les \(x\)) i l’obertura del sistema internacional (\(y\)) tenen una relació en forma d’U (Mansfield, 1994; Mas, 2021). En presència d’un hegemon, el sistema internacional és obert perquè la potència dominant s’encarrega de proveir béns públics internacionals pel seu propi interès. Això passa menys freqüentment en un sistema internacional format per potències mitjanes, ja que els Estats tenen la temptació de no col·laborar. En canvi, els Estats petits tenen més tendència a l’obertura comercial, pel fet que necessiten el comerç per accedir a determinats béns que no poden aconseguir dins del seu territori.

Simon Kuznets (1953) va trobar que la relació entre desenvolupament econòmic (\(x\)) i desigualtat (\(y\)) tenia forma d’U invertida. En un estadi baix de desenvolupament hi ha poca desigualtat perquè tothom és pobre. Amb la industrialització creix la desigualtat, perquè només una part de la societat pot prosperar primer. A mesura que el país es fa més ric, més sectors de la societat poden beneficiar-se del creixement econòmic, per tant, la desigualtat torna a disminuir. Aquesta teoria, però, ha estat contrastada per obres recents (Atkinson, 2015; Piketty & Saez, 2014).
La relació entre la renda (\(x\)) i la felicitat (\(y\)) té forma logarítmica (Deaton, 2008; Exton et al., 2015). Quan tenim nivells baixos d’ingressos, rebre’n un augment fa créixer ràpidament la nostra felicitat. En canvi, quan tenim nivells alts d’ingressos, el mateix augment es tradueix en un creixement molt residual en la felicitat.

Així doncs, el coeficient de correlació no sempre ens ajuda a determinar amb exactitud l’associació entre variables. És per aquest motiu que quan examinem relacions bivariades, sempre hem de fixar-nos en el dibuix o la forma de la relació i per això és essencial mostrar de forma gràfica la relació entre dues variables. Direm que la relació és lineal si aquesta forma dibuixa una línia més o menys recta. En canvi, si el dibuix pren una forma corba, en direm no lineal o quadràtica. En aquest segon cas, serà convenient realitzar una sèrie de tractaments estadístics avançats, que veurem més endavant.

Francis Anscombe i els límits del coeficient de correlació.

El coeficient de correlació ens pot dir molt poc sobre la forma d’una relació bivariada. En aquest sentit, el professor d’estadística Francis Anscombe va mostrar al 1973 com relacions completament diferents podien tenir el mateix coeficient de correlació. F. Anscombe va construir una base de dades sintètica on cada un dels gràfics (figura 1.5) té una r de 0.82, el mateix nombre de punts, la mateixa mitjana i la mateixa desviació típica per \(x\) i \(y\).

El marc de dades Anscombe està disponible al paquet d’R datasets, que ve incorporat de sèrie amb el programa.

1.4 Determinació

A través del coeficient de correlació podem obtenir una mesura anomenada el coeficient de determinació, també dit R-quadrat o R². El coeficient de determinació és un valor entre 0 i 1 que ens indica quina proporció de la variació dels valors d’una variable podem explicar si coneixem la variació dels valors de l’altra variable. Per fer aquesta definició una mica més entenedora, direm que R² més o menys ens respon a la següent pregunta: si coneixem els valors d’una variable, quines probabilitats tenim d’encertar els valors de l’altra?

Per calcular R² només cal elevar al quadrat el coeficient de correlació. Seguidament veurem alguns exemples de com interpretar el coeficient, d’acord amb el que hem vist en alguns gràfics anteriors:

En el gràfic a de la figura 1.2, R² és de 0.98 (que obtenim al elevar al quadrat el coeficient de correlació, que és de 0.99). Això significa que, si coneixem els valors d’una variable, amb tota probabilitat endevinarem els valors de l’altra, ja que la variabilitat d’una ens explica el 98% de la variabilitat de l’altra. Efectivament si, per exemple, ens diuen que el valor de la variable que es troba a l’eix de les \(x\) és 200, podrem dir amb molta seguretat que el valor de l’altra serà 200 o s’hi acostarà molt.
A la figura 1.3, R² és de 0.26 (que obtenim al elevar al quadrat el coeficient de correlació, que és de -0.51). Això vol dir que si coneixem els valors de \(x\), no ens serà fàcil determinar els valors de \(y\). Certament, si tenim la informació que el municipi té 10.000 habitants, no sabrem molt bé quin percentatge de població haurà votat Trump. Tant pot ser un 25 com un 75 percent de la població.
Per últim, fixem-nos en l’últim gràfic de la figura 1.1. A ull, ja veiem que conèixer els valors d’una variable no ens diu absolutament res sobre els valors de l’altra variable. Per tant, l’R² serà de 0, que és el resultat que obtenim quan elevem al quadrat el coeficient de correlació.

Per referir-nos a l’R², el més adequat serà parlar en percentatges i expressar-nos de la següent manera: “Amb la variabilitat de la variable \(x\), podem explicar un X% de la variabilitat de la variable \(y\)”. Com veurem més endavant, el coeficient de determinació ens resulta molt útil per conèixer la capacitat predictiva dels models de regressió.

Exercici 1.3 (Calcular el coeficient de correlació) Per calcular R² només cal elevar al quadrat el coeficient de correlació. Amb R, utilitzarem el codi següent r^2, sent r el resultat del coeficient de correlació. Calcula R² de:

El gràfic c de la figura 1.2.
El gràfic a de la figura 1.4.

Resposta

0.46
0.00