Inferència estadística

Moltes de les preguntes que ens acostumem a fer en l’àmbit de les Ciències Socials impliquen l’associació de dues variables. Quan un país esdevé més democràtic, millora el seu nivell de desenvolupament? La presència d’una potència hegemònica en el sistema internacional afavoreix la cooperació entre els Estats? Quines són les causes que afavoreixen la resolució d’un conflicte? Totes aquestes preguntes consideren l’associació d’almenys dues variables. En el primer cas, democràcia i desenvolupament, que podríem considerar variables de ràtio. En el segon, la presència d’un hegemon (variable binària) i la cooperació internacional, que podríem operacionalitzar, per exemple, com la quantitat de tractats internacionals signats en un any (variable numèrica de ràtio). I finalment, el darrer cas associa la resolució d’un conflicte (variable binària) amb altres variables.

Fins ara, hem après a analitzar les variables separadament amb instruments com la moda o la mitjana, que ens han permès resumir variables de forma quantitativa. També hem après a resumir variables de forma visual amb instruments com l’histograma i el diagrama de dispersió. En aquest mòdul, aprendrem els fonaments d’estadística necessaris que ens permetran posteriorment analitzar de forma numèrica i visual les relacions entre dos o més fenòmens socials.

La primera pregunta que hem formulat dos paràgrafs més amunt pot servir per il·lustrar el que veurem en aquest mòdul. La pregunta relacionava dos conceptes, democràcia i desenvolupament, que observem a la figura 1. Com a variable democràcia, s’utilitza l’índex de democràcia liberal de V-Dem (v12), i com a variable desenvolupament, s’utilitzen les dades del PIB per càpita de les Penn World Tables (v9.1). En aquest gràfic cada punt representa una observació de les nostres dades (un país) i la seva ubicació depèn dels seus nivells de democràcia (eix horitzontal) i del seu desenvolupament econòmic (eix vertical).

Figura 1: Relació entre democràcia liberal i desenvolupament econòmic (1950-2017).

A l’hora d’analitzar la relació entre dues variables, com és el cas, ens haurem de fer principalment quatre preguntes:

  1. Fins a quin punt existeix una associació entre les variables? Si s’observa el gràfic, es pot apreciar una concentració alta de punts a la part inferior esquerra i a la part superior dreta. Això indica que hi ha molts països poc democràtics i poc desenvolupats i, alhora, molts països democràtics amb un alt nivell de desenvolupament. Però, al contrari, hi ha pocs països democràtics amb un baix nivell de desenvolupament. Encara que hi ha alguns països no democràtics amb un PIB per càpita elevat, situats a la part superior esquerra del gràfic, en general sembla que les variables “democràcia” i “desenvolupament” estan associades de manera positiva. Més endavant, veurem que la resposta quantitativa a aquesta pregunta ens la donarà una mètrica anomenada coeficient de correlació.

  2. Fins a quin punt és possible que aquesta associació no existeixi realment? Aquesta pregunta és més complicada de respondre a aquestes alçades del mòdul, ja que requereix familiaritzar-se amb els principis de l’inferència estadística, que té en compte el nivell d’incertesa associat a les dades. No obstant això, podem intentar respondre a la pregunta especulant sobre què passaria si sorgissin una vintena d’Estats nous i ens aparegués aquesta nova informació en llocs remots del gràfic. Deixaríem de veure el patró que hem descrit en l’anterior paràgraf? Segurament no. Potser no veuríem l’associació entre democràcia i desenvolupament amb tanta nitidesa, però uns pocs casos nous probablement no canviarien el que estem observant. Més endavant, la resposta a la pregunta ens la donarà el coeficient de significació.

  3. Fins a quin punt és possible que una variable tingui un efecte sobre l’altra? La causalitat entre dues variables es dona quan la modificació dels valors de la primera variable provoca canvis en els valors de la segona. Podríem pensar que és la democràcia la causant del desenvolupament, pel fet que a les democràcies solen protegir-se millor els drets polítics en comparació amb les autocràcies. Això afavoreix la protecció dels drets econòmics i fomenta la iniciativa individual, cosa que permet el desenvolupament de l’activitat econòmica en una societat. Tanmateix, també podríem pensar a la inversa, que és el desenvolupament econòmic el causant de la democràcia, perquè a mesura que una societat prospera econòmicament, la ciutadania desenvolupa altres necessitats menys materialistes i més orientades cap a la llibertat i l’adquisició de drets polítics. És per això que el desenvolupament econòmic augmenta el reclam de llibertats polítiques que proporciona un règim democràtic. Parlar de causalitat, com veurem més endavant, és investigar i reflexionar sobre aquestes qüestions.

  4. I finalment, fins a quin punt podem crear un model que ens sigui útil per prediure els efectes d’una variable sobre l’altra? Això no és difícil d’imaginar si tornem a observar la figura 1. Suposem que us dic el següent: tenim un país amb un 0.85 a l’índex de democràcia de V-Dem, però desconeixem els seus nivells de desenvolupament. Podríeu endevinar quin nivell de desenvolupament té? Si mireu el gràfic, més o menys ho podríeu endevinar. Segur que no tindria un PIB per càpita de 1.000 euros, perquè no hi ha països amb un 0.85 de democràcia i un nivell de desenvolupament tant baix. En canvi, estaríeu força segurs que aquest país tindria un PIB per càpita d’entre 15.000 i 50.000 euros. Modelar significa crear un model matemàtic que ens permeti fer aquestes prediccions. D’aquesta forma, podrem estimar els valors d’una variable si coneixem els valors de l’altra.

En cada capítol d’aquest mòdul, explorarem amb més detall aquests quatre conceptes clau: associació, incertesa, causalitat i creació de models predictius. L’objectiu és comprendre la lògica subjacent de cada concepte utilitzant el mínim de codi d’R, de manera que ens puguem centrar en la part més substantiva de la inferència estadística. El domini d’aquests conceptes ens permetrà, més endavant, utilitzar les tècniques estadístiques bivariants amb molta més solidesa. Al llarg d’aquest capítol també veurem que, si bé l’associació entre dues variables pot resultar relativament senzilla d’observar i de quantificar, establir la causalitat entre dos fenòmens és quelcom molt més complex.