7 Anàlisi multivariada

7.1 Introducció

A l’hora d’analitzar relacions entre fenòmens a les Relacions Internacionals, és important tenir en compte dues premisses fonamentals. En primer lloc, és poc freqüent poder fer experiments en aquest camp, la qual cosa significa que les dades amb què treballarem s’hauran de recollir fora del laboratori i estaran subjectes a tota mena de biaixos. En segon lloc, com que les dades tindran biaixos, per examinar la relació entre dues variables haurem de tenir en compte l’efecte que estan tenint altres variables en aquesta relació. I això ens porta a haver de controlar l’efecte d’aquestes variables, que realitzarem amb l’anàlisi multivariada.

La tècnica d’anàlisi multivariada més freqüent és la regressió múltiple. Amb aquesta tècnica podem provar la nostra hipòtesi principal davant d’altres hipòtesis alternatives, i afegir noves variables independents de control al model de regressió. Això ens permet fer afirmacions més robustes sobre la relació entre la variable independent i la variable dependent, ja que podem comprovar si les dues variables tenen relació fins i tot quan controlem els efectes d’altres variables independents.

Quan la variable dependent és numèrica, utilitzarem la regressió lineal múltiple, mentre que quan la variable dependent és binària, emprarem la regressió logística múltiple. En aquest capítol ens centrarem a explicar la regressió lineal múltiple, encara que la regressió logística funciona amb la mateixa lògica.

7.2 Regressió lineal multivariada

A l’apartat Regressió lineal del capítol anterior, hem començat a investigar perquè algunes Organitzacions Internacionals (OIs) tenen més autoritat que d’altres. Les dades del projecte de Liesbet Hooghe et al. (2019) ens han servit per examinar si dues variables numèriques, l’antiguitat d’una OI i els seus nivells de delegació, tenien algun tipus d’associació. Tot i que inicialment consideràvem que el pas dels anys era un factor rellevant per explicar l’autoritat internacional de les OI, després d’una anàlisi de regressió hem descartat que aquestes dues variables numèriques estiguin associades.

Literatura sobre OIs

Els primers estudis quantitatius sobre OIs provenen de temps enrere (Wallace & Singer, 1970). Recentment s’ha tornat a reflotar l’interès en la temàtica a través de diversos estudis empírics (Pevehouse et al., 2019; Schimmelfennig et al., 2020). Un dels darrers treballs ha estudiat el declivi d’aquestes organitzacions (Debre & Dijkstra, 2021). Per llegir un resum de la literatura, veure Gartzke & Schneider (2013).

Per aprofundir en l’estudi de l’autoritat internacional de les OI, podem contrastar diverses hipòtesis mitjançant l’anàlisi multivariada. Això ens permet introduir diverses variables en un model de regressió i determinar si alguna d’elles té un efecte significatiu sobre la variable dependent, alhora que es tenen en compte altres variables independents. És important que les variables que seleccionem estiguin justificades teòricament, per la qual cosa hem d’examinar la literatura acadèmica de les Relacions Internacionals i d’altres àmbits que hagin abordat preguntes similars. A través de la discussió i l’anàlisi de les teories principals de la disciplina, podrem trobar possibles respostes a la nostra pregunta de recerca. Algunes hipòtesis que podríem considerar són les següents:

Sabem que les democràcies tenen una cultura política que valora la cooperació i la negociació per resoldre problemes. Així mateix, els Estats democràtics acostumen a compartir valors comuns (Keohane & Nye, 1977). Això fa que les democràcies puguin ser més propenses a participar en OIs i a delegar-hi funcions per promoure aquests valors a nivell global. Per mesurar la democràcia, hem calculat la mitjana de democràcia segons l’índex V-Dem de democràcia liberal (Coppedge et al., 2021).
Un dels arguments principals de l’obra de Hooghe et al. (2019) és que les OIs responen a dues lògiques diferents. Un grup d’OIs són multitemàtiques: els seus Estats membres tenen certa proximitat cultural i geogràfica i decideixen crear aquestes IOs per resoldre problemes comuns, les quals requeriran un alt nivell de delegació per actuar eficientment. Podria ser el cas del Consell Nòric, Mercosur, ASEAN o la Unió Europea. L’altre grup d’OIs estan orientades a una temàtica concreta. Estan formades per Estats més heterogenis i normalment tracten qüestions més relacionades amb la sobirania nacional, que els Estats no volen delegar. És el cas d’organitzacions com l’OTAN, la FAO o l’OMS. Per tant, podrem esperar que les OIs amb més nombre d’àrees de competència tindran un nivell més alt de delegació¹.
Hi ha estudis que defensen que algunes regions, per característiques culturals, han desenvolupat més tendència a la delegació d’autoritat a les OIs (Moravcsik, 1998), com és el cas dels països europeus. Testarem aquest argument amb una dummy d’Europa.
Anteriorment ja hem examinat l’antiguitat de l’organització internacional com a possible variable explicativa.

¹ Per a mesurar aquesta variable, els autors van crear la MIA policy data set, on la variable scope mesurava el nombre d’àrees de competència de cada OI.

Exercici 7.1 (Regressió múltiple) Per fer la regressió múltiple, tornarem a utilitzar la versió modificada de la Measuring International Authority (MIA) dataset (Hooghe et al., 2017, 2019), que inclou algunes característiques de les Ois, així com altres variables socioeconòmiques i polítiques. Assegura’t que les dades estiguin emmagatzemades a R en l’objecte mia_regions.

Examina especialment les variables que usarem amb les tècniques univariants que coneixes.

7.3 Anàlisi empírica

Abans de crear el model de regressió, sempre és necessari fer un anàlisi univariada de cadascuna de les variables que volem incloure. Per això utilitzarem les eines visuals i quantitatives que coneixem per fer una descripció de les variables. Aquest procediment és important per dos motius:

Algunes variables poden no tenir una distribució normal. Per millorar la bondat de l’ajustament del model, una opció és transformar les variables per tal que adquireixin una distribució més propera a la normal. Per exemple, les dades del PIB per càpita o de població acostumen a tenir asimetria negativa, per la qual cosa normalment es transformen mitjançant el logaritme neperià per aconseguir una distribució més simètrica. En el cas de la variable inception, s’observa una asimetria positiva extrema (veure figura 7.1), cosa que podria afectar la bondat de l’ajustament del model. Per aquest motiu, podríem considerar aplicar una transformació quadràtica o exponencial, o bé eliminar els casos extrems. No obstant això, per simplicitat, en aquest exercici no s’aplicarà cap transformació.
Hem de vigilar la presència d’una colinealitat injustificada entre les variables. Aquesta es produeix quan el coeficient de correlació entre dues variables és molt alt (superior a 0.85, per exemple), la qual cosa pot indicar que aquestes dues variables ens estan informant del mateix des del punt de vista empíric². Només inclourem variables amb una elevada colinealitat en cas que estigui justificat (com veurem en l’apartat Cas d’estudi: la pau democràtica).

² Per exemple, no tindria gaire sentit incloure el PIB per càpita i el PNB per càpita, perquè més o menys ens estarien donant informació del mateix fenomen: l’activitat econòmica per habitant d’un país, el nivell de desenvolupament, etc.

Per analitzar la colinealitat entre variables, utilitzarem la taula de correlació, la qual mostra el coeficient de correlació entre totes les variables que considerem incloure en el model de regressió. En el resultat del codi següent veiem com els coeficients de correlació entre les variables són baixos. La correlació més alta és la que existeix entre europe i libdem, amb un 0.53. Això indica que no hi ha cap risc important d’existència de colinealitat entre les variables.

mia_regions$europe <- as.numeric(mia_regions$region == "Europe")
cor(mia_regions[,c("delegation","inception","scope","libdem", "europe")], 
    use = "pairwise.complete.obs") |> 
  round(2)
##            delegation inception scope libdem europe
## delegation       1.00      0.08  0.33   0.08   0.15
## inception        0.08      1.00  0.25  -0.27  -0.12
## scope            0.33      0.25  1.00  -0.17   0.10
## libdem           0.08     -0.27 -0.17   1.00   0.53
## europe           0.15     -0.12  0.10   0.53   1.00

Quantes variables independents escollim?

No existeix una regla clara sobre quantes variables independents hauríem de considerar en un model de regressió, ni tampoc sobre quines variables hauríem de triar. Tanmateix, hem de tenir en compte que el nombre de variables independents que introduïm al model de regressió depèn del nombre de casos que tinguem disponibles. Si tenim molt pocs casos, és possible que al introduir unes poques variables ens quedem sense cap d’elles, la qual cosa té una significació estadística amb la variable dependent.

Quan només podem incloure unes poques variables, una possibilitat és que cada una representi una gran perspectiva teòrica de la literatura o un nivell d’anàlisi diferent (Berg-Schlosser & De Meur, 2009). Per exemple, una variable pot representar el realisme, l’altra el liberalisme i l’altra el constructivisme. També podríem triar variables que representin diferents nivells d’anàlisi, com ara el societal, l’estatal i el sistèmic.

7.4 El model de regressió

El model de regressió múltiple es construeix de manera molt semblant al model de regressió simple. L’únic canvi és que a l’argument de la fórmula dins de la funció lm() afegirem les variables addicionals, separades pel signe +.

summary(lm(data = mia_regions, 
           formula = delegation ~ inception + scope + libdem + europe))
## 
## Call:
## lm(formula = delegation ~ inception + scope + libdem + europe, 
##     data = mia_regions)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.28914 -0.12199 -0.00427  0.07778  0.30838 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -0.2150865  1.2307170  -0.175   0.8618   
## inception    0.0001757  0.0006247   0.281   0.7794   
## scope        0.0075102  0.0027786   2.703   0.0087 **
## libdem       0.0884685  0.1036027   0.854   0.3962   
## europe       0.0249581  0.0620285   0.402   0.6887   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1433 on 67 degrees of freedom
##   (4 observations deleted due to missingness)
## Multiple R-squared:  0.1288, Adjusted R-squared:  0.07675 
## F-statistic: 2.476 on 4 and 67 DF,  p-value: 0.05247

La informació principal que podem treure del model és la següent:

Constant: El coeficient de la constant o intercept, que trobem a la columna Estimate, mostra quin valor pren la variable dependent quan el valor de totes les variables independents és 0. És a dir, una hipotètica IO creada a l’any 0, amb 0 competències, formada per autocràcies plenes i que no estigués a Europa tindria un nivell de delegació de -0.2150865. Evidentment, com està plantejat en termes hipotètics, aquest valor pot resultar irreal.
Coeficients estimats: Els coeficients estimats (columna Estimate) indiquen quina és la variació en la variable dependent per cada unitat que augmentem a la independent en qüestió, i es deixa la resta de variables independents constants. Per exemple, per cada àrea de competència (scope) addicional de l’OI, la delegació d’autoritat augmenta un 0.0075102 (en l’escala de 0 a 1, que és com estava mesurada la variable) i es mantenen les altres variables constants. Si la OI és a Europa (europe), la delegació augmenta un 0.0249581, i així successivament amb les altres.
Significació: A la columna Pr(>|t|) veiem el p-valor de cada variable. Només scope té una relació significativa amb un 99% de confiança (**) amb la delegació d’autoritat. Les altres variables independents del model, en canvi, no tenen una relació significativa amb la variable dependent, per la qual cosa no podem assegurar amb certesa que aquesta relació existeixi si generalitzem els resultats a una població més àmplia de casos³.
Determinació del model: En global, l’R² del model és de 0.08 (mirarem l’Adjusted R-squared). Això significa que amb la variació dels valors de les variables independents només podem explicar un 8% de la variació de la variable dependent.

³ Si ens fixem en els coeficients estimats,delegation augmenta més quan variem libdem que no pas quan variem scope en una unitat. Però, en canvi, la relació és només significativa en el cas de scope, malgrat tenir un efecte més baix. Com pot ser això? Una primera raó pot ser perquè la unitat de mesura de les variables és diferent: libdem està mesurat en graus de democràcia en escala 0-1 i scope en nombre de competències. La segona raó és per l’incertesa: si ens fixem en l’error estàndard, veiem que existeix molta més incertesa en libdem que no pas en scope (recordem que dos errors estàndards equivalen aproximadament a l’interval de confiança del 95%.

Si comparem aquest model de regressió amb el que hem utilitzat en l’apartat anterior, veiem com la inclusió de noves variables ha permès explicar un percentatge més alt de la variabilitat de la variable dependent. A partir d’aquí tenim la possibilitat de dur a terme anàlisis més detallades, com ara provar d’eliminar o incloure altres variables, sempre que estiguin justificades teòricament i hagin estat analitzades empíricament, per tal de determinar com afecten el coeficient de determinació.

Exercici 7.2 (Prova de fer canvis) Examina de nou el marc de dades mia_regions i fes canvis en el model de regressió anterior.

Substitueix inception per una altra variable que puguis justificar teòricament i empíricament, i comprova les diferències entre models.
En lloc d’Europa, prova d’incorporar una variable dummy d’una altra regió.

Amb la informació obtinguda de l’anàlisi de regressió multivariada, podem crear una fórmula que ens serveixi per predir el valor que prendria la variable dependent en funció dels valors de les independents. D’acord amb els coeficients estimats del model, la fórmula seria la següent:

\[ delegation = -0.2150865 + inception * 0.0001 + scope * 0.0075102 + libdem * 0.0884685 + europe * 0.249581 \]

Aquesta equació ens permet fer prediccions. Per exemple, podríem preguntar-nos quin nivell de delegació hi hauria en una hipotètica OI ubicada a Europa creada el 1975, que tingués 12 àrees de competència i que els seus membres fossin principalment democràcies?

inception <- 1975
scope <- 12
libdem <- 0.8
europe <- 1

-0.2150865 + inception * 0.0001 + scope * 0.0075102 + libdem * 0.0884685 + europe * 0.249581
## [1] 0.3928917

La resposta és que el nivell de delegació d’autoritat seria de 0.39. Evidentment, amb un R² tant baix, no ens podem refiar gaire d’aquesta predicció.

Exercici 7.3 (Predicció de delegació) Quin nivell de delegació tindria una hipotètica OI ubicada al sud-est asiàtic creada el 2001, amb 2 àrees de competència i que tingui un cert balanç entre autocràcies i democràcies (valor a la variable libdem de 0.5)?

Solució de l’exercici

El nivell de delegació seria 0.04426815.

7.5 Presentar i llegir els resultats

A l’hora de presentar els resultats de la nostra anàlisi, sol ser habitual fer-ho d’una manera semblant a la que es mostra a la taula 11.1. R té alguns paquets que ens fan la feina de passar els resultats d’una regressió a net. Un dels més utilitzats és jtools, que amb la funció export_summs() permet crear una taula amb la informació essencial que necessitem per poder llegir i interpretar un model de regressió. Fins i tot permet introduir i contrastar diferents models. Per exemple, hem inclòs un segon model on, en lloc d’incloure una variable dummy amb països europeus, hem inclòs una dummy per OIs d’àmbit global, que marca les OIs formades per Estats de més d’una regió mundial.

Per crear la taula de regressió, primer guardarem cada model amb el nom d’un objecte. A l’exemple següent, els hem guardat com a mod1 i mod2. I, a continuació, ubiquem els objectes com a arguments de la funció export_summs().

El paquet stargazer.

El paquet stargazer és una bona alternativa a jtools.

library(stargazer)
stargazer(mod1,
          type = "text")

mia_regions$global <- as.numeric(mia_regions$region == "Global")
library(jtools)
mod1 <- lm(data = mia_regions, formula = delegation ~ inception + scope + libdem + europe)
mod2 <- lm(data = mia_regions, formula = delegation ~ inception + scope + libdem + global)
export_summs(mod1,mod2, scale=T)

Taula 7.1: Delegació a les OIs. Taula de regressió.
	Model 1	Model 2
(Intercept)	0.23 ***	0.22 ***
	(0.02)	(0.03)
inception	0.01	0.01
	(0.02)	(0.02)
scope	0.05 **	0.06 *
	(0.02)	(0.02)
libdem	0.02	0.02
	(0.02)	(0.02)
europe	0.02
	(0.06)
global		0.02
		(0.04)
N	72	72
R2	0.13	0.13
All continuous predictors are mean-centered and scaled by 1 standard deviation. * p < 0.001; p < 0.01; * p < 0.05.

A les taules de regressió, les variables independents se situen a les files de la taula i cada model predictiu se situa a les columnes. Al marge superior o al títol de la taula apareix quina és la variable dependent. La informació que conté la taula de regressió és la següent:

Els coeficients estimats per cada variable independent s’indiquen a l’alçada de la variable corresponent, normalment amb dos o tres decimals.
Al costat de cada coeficient trobarem la seva significació estadística, representada per asteriscos.
L’error estàndard, que trobarem entre parèntesi a sota de cada coeficient. Com sabem, si un coeficient concret és inferior a dues vegades el seu error estàndard, la relació amb la variable independent no serà significativa.
A la part inferior de la taula també trobarem informació com la mida de la mostra (N) i l’R².

Aquestes visualitzacions són útils per comparar diversos models i determinar si hi ha diferències en els valors de la variable dependent segons les independents que s’incorporen en cada model. En aquest sentit, podem concloure que la inclusió de la dummy “global” no aporta gaire informació en relació amb el model anterior, pel fet que no millora la capacitat predictiva, malgrat incrementar lleugerament el coeficient estimat de la variable scope.

Una altra visualització interessant que podem obtenir a partir d’un anàlisi de regressió múltiple és la que mostra la figura 11.2. Aquest gràfic ens proporciona una informació semblant a la de la taula de regressió:

Cada color representa un model diferent.
Els punts indiquen els coeficients estimats de cada variable independent.
Les línies a dreta i esquerra dels punts indiquen l’interval de confiança del 95%.
Si les línies no intercepten la línia vertical discontínua, és senyal que la relació entre la variable independent concreta i la variable dependent no és significativa.

plot_summs(mod1,mod2, scale=T)

Figura 7.2: Coeficients estimats de delegació a les OIs.

Berg-Schlosser, D., & De Meur, G. (2009). Comparative Research Design: Case and Variable Selection. In B. Rihoux & C. C. Ragin (Eds.), Configurational comparative methods (pp. 19–32). Sage.

Coppedge, M., Gerring, J., Knutsen, C. H., Lindberg, S. I., Teorell, J., Altman, D., Bernhard, M., Cornell, A., Fish, M. S., Gastaldi, L., Gjerløw, H., Glynn, A., Hicken, A., Hindle, G., Ilchenko, N., Krusell, J., Luhrmann, A., Maerz, S. F., Marquardt, K. L., … Ziblatt., D. (2021). V-Dem [Country–Year/Country–Date] Dataset v11.1. Varieties of Democracy Project. https://doi.org/10.23696/vdemds21

Debre, M., & Dijkstra, H. (2021). Institutional design for a post-liberal order: Why some international organizations live longer than others. European Journal of International Relations.

Gartzke, E., & Schneider, C. (2013). Data sets and quantitative research in the study of intergovernmental organizations. In B. Reinalda (Ed.), Routledge handbook of international organization (pp. 41–53). Routledge.

Hooghe, L., Lenz, T., & Marks, G. (2019). A Theory of International Organization. Oxford University Press.

Hooghe, L., Marks, G., Lenz, T., Bezuijen, J., Ceka, B., & Derderyan, S. (2017). Measuring International Authority: A Postfunctionalist Theory of Governance (p. 350). Oxford University Press.

Keohane, R. O., & Nye, J. S. (1977). Power and interdependence: World politics in transition. Little, Brown.

Moravcsik, A. (1998). Taking preferences seriously: A liberal theory of international politics. International Organization, 51(4), 513–553.

Pevehouse, J. C. W., Nordstron, T., McManus, R. W., & Jamison, A. S. (2019). Tracking Organizations in the World: The Correlates of War IGO Version 3.0 datasets. Journal of Peace Research, 57(3), 492–503.

Schimmelfennig, F., Lenz, T., Winzen, T., Crasnic, L., Lipps, J., Mumford, D., & Gherasimov, C. (2020). The Rise of International Parliaments. Strategic Legitimation in International Organizations. Oxford University Press.

Wallace, M., & Singer, J. D. (1970). International Governmental Organization in the Global System, 1815-1964. International Organization, 24(1), 239–87.