10  Observacions

10.1 Introducció

Per observacions ens referim a cada una de les unitats o casos que estem investigant. En un marc de dades, les observacions aniran situades a les files, de manera que si resseguim una mateixa fila puguem veure tots els atributs d’una mateixa unitat. A la figura 10.1 veiem un marc de dades que conté cinc observacions, repartides al llarg de les files. Si ens hi fixem bé, podem veure que cada observació conté dades sobre unes eleccions en un país determinat. Si resseguim l’observació (marcat en vermell) tenim dades sobre les seves característiques. A la segona observació, per exemple, veiem informació sobre les eleccions que es van celebrar al Japó, l’any 2021, que van tenir una participació del 55,97 %, etc. Tots els valors d’aquesta fila concreta són atributs del mateix cas.

Figura 10.1: Les eleccions del Japó com a observació

Observacions i files

Una observació no és el mateix que una fila. No ho hem de confondre. Com veurem més endavant, en alguns conjunts de dades les files no contindran les observacions d’una mateixa unitat.

10.2 Unitats d’anàlisi i d’observació

A l’hora d’establir allò que volem observar en un estudi, hi ha una distinció conceptual que cal tenir en compte: la unitat d’anàlisi i la unitat d’observació.

La unitat d’anàlisi es refereix a l’enfocament del nostre estudi. Sobre quin fenomen social o sobre quins actors polítics volem dir alguna cosa? Sobre moviments socials? Sobre poblacions refugiades? Sobre els règims polítics? La unitat d’anàlisi ve determinada per la nostra pregunta de recerca. En el cas de la figura anterior, estem estudiant eleccions, de manera que la unitat d’anàlisi són les eleccions. Conèixer la unitat d’anàlisi ens ajuda a pensar quines dades podem necessitar per mesurar les variables d’interès (dia de les eleccions, país on se celebren, participació, partit guanyador…). En Ciències Socials, trobarem dos tipus d’unitats d’anàlisi:

  • Actors polítics: individus, grups socials, organitzacions, agències governamentals, nacions, estats, regions, etc.
  • Fenòmens socials: eleccions, atemptats terroristes, guerres, conflictes, acords de lliure comerç, aliances, etc.
Anàlisi i observació

Com veiem, la unitat d’anàlisi (UA) és allò que volem estudiar. Segurament seran els líders polítics. La unitat d’observació (UO), en canvi, és país-líder-any-mes, i ve determinada per les dades.

Figura 10.2: Líders polítics

La unitat d’observació, en canvi, ve determinada pel mètode de recol·lecció de dades que utilitzem per respondre a la pregunta i es refereix a allò que observem, mesurem o recollim per saber alguna cosa sobre la unitat d’anàlisi. En el cas de la figura 10.1, la unitat d’anàlisi i la unitat d’observació coincideixen, perquè sembla que cada observació del marc de dades conté informació sobre una elecció concreta. No obstant això, és molt possible que ens trobem casos on les unitats d’anàlisi i d’observació no coincideixin, com és el cas de la figura 10.2. Vegem-ne alguns exemples més:

  • Volem estudiar la corrupció dels governs (unitat d’anàlisi). Ho fem mitjançant enquestes de percepció ciutadana. Cada observació del marc de dades serà l’opinió d’una persona sobre la corrupció. Per tant, la unitat d’observació serà l’individu.
  • Investiguem per què alguns països (unitat d’anàlisi) són més rics que d’altres. Utilitzarem dades agregades de país en diversos anys, pel qual la unitat d’observació serà el país-any.
  • Estudiem grups socials (família, grups d’amics, treballadors, empresaris, clubs socials…), però ho fem per mitjà d’entrevistes als individus (unitat d’observació).
  • Estudiem els partits polítics (unitat d’anàlisi) mitjançant el contingut dels seus programes electorals. Cada frase d’un programa electoral és la unitat d’observació.

La distinció entre aquests dos conceptes és important, perquè quan la unitat d’observació i la unitat d’anàlisi és diferent, hi ha el risc d’incórrer en un problema de fal·làcia ecològica (Achen & Shively, 1995).

Fal·làcia ecològica

Quan la unitat d’anàlisi i la unitat d’observació no coincideixen, tenim el risc d’incórrer en un problema habitual d’inferència que s’anomena fal·làcia ecològica. Aquesta situació es produeix perquè volem dir alguna cosa sobre una població de la qual, per diverses raons, només disposem de dades agregades. Ho veurem més clar amb un exemple.

Suposem que volem fer un estudi de la relació entre la religió i el suïcidi a França. La nostra unitat d’anàlisi és l’individu perquè volem saber per què unes persones se suïciden més que d’altres. Malauradament, en aquest estudi hipotètic no disposem de dades individuals, sinó agregades pel que fa al departament. La taula 10.1 mostra un fragment de les dades. Veiem que la unitat d’observació és el grup religiós per departament (en aquest cas veiem el departament d’Isère). Observem que hi ha més suïcidi entre protestants que entre catòlics.

Mostra el codi
suicide <- tibble(region = c("Isère"),
                  municipality = rep(c("Grenoble", "Le Bourg-d'Oisans", "Saint-Jean-de-Maurienne"), times = 1, each = 2),
                  religion = rep(c("Protestant", "Catholic"), times = 3),
                  population = c(8250,1080,325,593,181,392),
                  suicide = c(520, 72, 12, 20, 5, 11))
suicide |> 
  group_by(region, religion) |> 
  summarize(population = sum(population),
            suicide = sum(suicide)) |> 
  mutate(perc = suicide / population * 100)
Taula 10.1: Dades hipotètiques de suïcidi a Isère
region religion population suicide perc
Isère Catholic 2065 103 4.99
Isère Protestant 8756 537 6.13

Amb les dades que tenim, podríem concloure que els individus que practiquen la religió protestant se suïciden més que els que practiquen la religió catòlica. Però el cert és que, amb la informació que tenim, no ho podem saber del cert. Hem de tenir present que podem incórrer en un problema de fal·làcia ecològica perquè estem arribant a una conclusió sobre una unitat d’anàlisi (l’individu) amb dades agregades d’un nivell superior (departament-grup religiós).

Ara agafem les mateixes dades que hem utilitzat per crear la taula anterior, però les desagreguem segons els tres municipis que hipotèticament conformen Isère: Grenoble, Le Bourg-d’Oisans i Saint-Jean-de-Maurienne. A la taula 10.2 observem exactament la mateixa informació, però amb la unitat d’observació en l’àmbit de municipi per grup religiós. Fixem-nos que en aquesta nova taula les conclusions anteriors ja no se sostenen.

Mostra el codi
suicide |> 
  mutate(perc = suicide / population * 100) |>
  arrange(desc(perc))
Taula 10.2: Dades hipotètiques de suïcidi desagregades per municipi
region municipality religion population suicide perc
Isère Grenoble Catholic 1080 72 6.67
Isère Grenoble Protestant 8250 520 6.30
Isère Le Bourg-d’Oisans Protestant 325 12 3.69
Isère Le Bourg-d’Oisans Catholic 593 20 3.37
Isère Saint-Jean-de-Maurienne Catholic 392 11 2.81
Isère Saint-Jean-de-Maurienne Protestant 181 5 2.76

Amb les dades desagregades, observem que les taxes de suïcidi són molt semblants entre catòlics i protestants. De fet, en dos dels tres municipis els catòlics tenen una taxa de suïcidi més alta. Què ha passat? Doncs que a Grenoble, on hi ha una taxa de suïcidi més alta, hi ha més practicants de la religió protestant. En canvi, als municipis petits, amb taxes de suïcidi més baixes, hi ha més practicants de la religió catòlica. És possible que la principal explicació per la qual les persones se suïciden més tingui a veure amb la mida del municipi: se suïciden més a les ciutats. Però si agreguem les dades pel que fa al departament, podem pensar erròniament que hi ha una relació positiva entre practicar la religió protestant i el suïcidi.

En resum, el que és cert en l’àmbit agregat no és necessàriament cert a escala individual. Si trobem una relació entre característiques de grup, això no significa que hi hagi una relació entre les característiques dels individus del grup.

10.3 Tipus d’observacions

Quines maneres tenim d’observar el món? Quan intentem explicar les coses que passen en l’àmbit social, normalment ens focalitzem en una petita part d’aquest. Una classificació molt popular de les Relacions Internacionals, emprada també en Ciència Política, la trobem a Man, the state, and war: a theoretical analysis, on Kenneth Waltz (1959) establia tres nivells d’anàlisi o imatges per explicar l’origen dels conflictes: el sistema internacional, l’estat i l’individu (Gourevitch, 1978; veure també Singer, 1961). Aquests tres nivells d’anàlisi podem entendre’ls com a agrupacions d’observacions, que ens apunten la «direcció des d’on emergeixen les causes» (Nau, 2020). Així, cada corrent teòric acostuma a emfatitzar un nivell d’anàlisi concret a l’hora d’explicar les causes dels fenòmens socials. Per exemple, tant els constructivistes socials com els neorealistes consideren que la principal explicació de per què el món és com és cal buscar-la a la tercera imatge. No obstant això, constructivistes i neorealistes divergeixen de manera important en la perspectiva: si bé els primers posen l’èmfasi en les idees imperants en la societat internacional, els segons es focalitzen en l’estructura del sistema internacional.

Altres classificacions

Una classificació propera a la Sociologia i a la Ciència Política classifica els nivells d’anàlisi en un contínuum de molt petit (micro) a molt gran (macro) (Wepundi, 2010). Així, en un nivell micro tindríem unitats d’anàlisi com individus o famílies; en un nivell meso trobaríem grups socials i organitzacions com clans, tribus o empreses; i en un nivell macro trobaríem estructures més globals com estats, nacions o civilitzacions.

A continuació, resumim els principals tipus d’observacions que ens podem trobar a les bases de dades a partir de la classificació de Waltz (1959). Cal prendre’s aquesta distinció únicament com una manera d’ordenar aquest apartat. De fet, altres autors apunten que en realitat hi ha un nombre més ampli de nivells que els que marca aquesta classificació.

10.3.1 Tercera imatge

Tercera imatge: estructura

L’estructura del sistema internacional es refereix a aspectes com l’existència d’anarquia o d’institucions que la mitiguen, la distribució relativa de poder entre els estats, la presència d’una o diverses potències hegemòniques o el fet que aquestes potències siguin marítimes o territorials.

La tercera imatge posa el focus en qüestions sistèmiques del sistema internacional. En l’àmbit estructural, podem mirar d’observar la posició de poder relativa dels estats, el nombre de grans potències, la polaritat o el grau d’anarquia del sistema internacional. Aquest darrer ha estat el propòsit de la Intergovernmental Organizations dataset (v3) (Pevehouse et al., 2019; Wallace & Singer, 1970), en què els seus autors han observat la presència d’institucions comunes entre els estats a través d’una classificació de les organitzacions internacionals existents des de 1815 fins a l’actualitat. A la taula 10.31 veiem deu observacions de la base de dades que corresponen a l’any 1996. La unitat d’anàlisi és l’organització internacional i, com podem comprovar, la unitat d’observació és l’organització en un any determinat. Entre les característiques hi figuren el nom de l’organització, l’any o bé cadascun dels estats que potencialment en poden formar part. Angola, per exemple, era membre de l’ACPEU el 1996, però en canvi Andorra no era membre d’aquesta organització durant el mateix any.

  • 1 Més endavant observarem un problema relacionat amb aquest conjunt de dades.

  • Taula 10.3: Intergovernmental Organizations dataset (v3)
    ioname orgname year afghanistan albania algeria andorra angola antiguabarbuda argentina armenia
    ACPEU ACP/EU Joint Assembly 1996 0 0 0 0 1 1 0 0
    ACSSRB Administrative Center for Soc Security for Rhine Boatmen 1996 0 0 0 0 0 0 0 0
    CAMES Afr. & Malagasy Council for Higher Ed. 1996 0 0 0 0 0 0 0 0
    ACSO African Civil Service Observatory 1996 -9 -9 -9 -9 -9 -9 -9 -9
    ACI Afr. Cultural Institute 1996 0 0 0 0 0 0 0 0
    AfDB African Development Bank 1996 0 0 1 0 1 0 1 0
    AFEXIMB Afr. Exp/Import Bank 1996 -9 -9 -9 -9 -9 -9 -9 -9
    AFRAND Afr. Foundation for R & D 1996 -9 -9 -9 -9 -9 -9 -9 -9
    AFGEC Afr. Fund Guarantee & Econ. Coop. 1996 0 0 0 0 0 0 0 0
    AIPO African Intellectual Property Organization 1996 0 0 0 0 0 0 0 0

    A la tercera imatge també podríem ubicar l’estudi del procés, les interaccions o les relacions de poder entre actors internacionals. Podríem dir que aquest és i ha estat el tema central de les Relacions Internacionals, ja que, com indica el nom de la disciplina, el seu focus principal ha estat observar les relacions entre nacions o estats. La norma habitual en estudis quantitatius ha estat, sobretot a partir dels anys noranta, utilitzar el que s’anomenen dades diàdiques, en què la unitat d’observació no és un actor, sinó la relació entre dos actors. Un exemple de marc de dades diàdic el veiem a la taula 10.4, que conté un fragment de la Militarized Interstate Disputes dataset (Palmer et al., 2020). Allò que es vol estudiar, la unitat d’anàlisi, són les disputes militaritzades entre estats, mentre que la unitat d’observació és la disputa-estat-any. Fixeu-vos que una mateixa disputa, per exemple el conflicte entre els Estats Units i el Regne Unit (disno número 2), està repetida tantes vegades com anys i nombre d’estats té. Les característiques que es descriuen en el marc de dades no són pròpies de cap actor, sinó que són característiques de la relació entre els estats de l’observació; per exemple, el resultat de la disputa (outcome) o la durada en dies de la disputa (duration).

    Tercera imatge: el procés

    El focus en el procés o les interaccions és comú en el neoliberalisme institucional, que estudia fenòmens com la interdependència, les aliances, els problemes d’informació o la incertesa. Des d’una perspectiva constructivista, s’investiguen processos de formació i consolidació d’idees, com el feudalisme, el capitalisme, el militarisme, el mercantilisme o el keynesianisme.

    Taula 10.4: Dyadic Militarized Interstate Disputes dataset (v4.02)
    disno namea nameb year outcome settlmnt fatlev hihost duration revstata revstatb war
    2 USA UKG 1902 0 0 0 3 184 1 1 0
    2 USA UKG 1903 6 1 0 3 25 1 1 0
    2 UKG USA 1902 0 0 0 3 184 1 1 0
    2 UKG USA 1903 6 1 0 3 25 1 1 0
    3 AUH YUG 1913 4 3 0 3 177 1 0 0
    3 YUG AUH 1913 3 3 0 3 177 0 1 0
    4 UKG ALB 1946 5 3 2 4 183 0 0 0
    4 ALB UKG 1946 5 3 2 4 183 0 0 0

    10.3.2 Segona imatge

    Segona imatge

    La segona imatge es refereix principalment a les característiques domèstiques dels estats. Les institucions com ara tipus de règim polític (democràcia o autocràcia), nombre d’actors amb poder de veto, separació de poders, sistema econòmic (capitalista o socialista), fortalesa de l’estat (estats fallits), així com la manera com determinats grups d’interès domèstics (coalicions polítiques organitzades al voltant de factors de producció, sectors econòmics o ideologies polítiques i religioses) exerceixen la seva influència en la presa de decisions.

    Segons marxistes i liberals, l’explicació principal de per què el món és com és cal buscar-la en el caràcter de les unitats que conformen el sistema internacional. Mentre els autors marxistes han destacat que els règims capitalistes generen comportaments diferents –inherentment més expansionistes en comparació als règims socialistes–, els liberals han destacat que és el tipus de règim polític –ser o no una democràcia– el principal factor explicatiu de l’existència de conflictes internacionals. Per testar l’argument liberal han estat molt útils bases de dades com la Democracy Dictatorship dataset (Cheibub et al., 2010), que descriuen les característiques polítiques de cada estat del sistema internacional en un any determinat.

    Aquest tipus de bases de dades permet estudiar la relació de les institucions polítiques, com la democràcia, amb altres fenòmens com el desenvolupament econòmic o els conflictes. Com observem en un fragment de la taula 10.5, la unitat d’anàlisi és l’estat i la unitat d’observació és l’estat-any, perquè cada observació correspon a un estat en un any determinat.

    Taula 10.5: Democracy and Dictatorship dataset (v1)
    ctryname year ccow cwdi un_region_name exselec legselec closed incumb type2 democracy reg agedem agereg
    Afghanistan 2003 700 AFG Southern Asia 3 0 1 0 0 0 3 75 31
    Afghanistan 2008 700 AFG Southern Asia 1 2 2 0 1 0 3 80 36
    Albania 2003 339 ALB Southern Europe 2 2 2 0 0 1 0 13 13
    Albania 2008 339 ALB Southern Europe 2 2 2 0 0 1 0 18 18
    Lesotho 2003 570 LSO Southern Africa 2 2 2 0 1 0 3 38 11
    Lesotho 2008 570 LSO Southern Africa 2 2 2 0 1 0 3 43 16
    Liberia 2003 450 LBR Western Africa 3 1 1 0 0 0 3 134 14
    Liberia 2008 450 LBR Western Africa 1 2 2 0 0 1 2 3 3

    A la segona imatge de Waltz també s’hi troben els grups socials, molt estudiats en el camp de la Sociologia, com ara els grups ètnics. La EPR - Ethnic Power Relations (Cederman et al., 2010, p. Vogt2015) és una de les bases de dades sobre conflictes ètnics que elabora el grup International Conflict Research del Center for Comparative and International Studies de l’ETH Zurich. En aquest cas, la unitat d’anàlisi seria el grup ètnic i la unitat d’observació el grup ètnic per estat en un període determinat. Fixem-nos, per exemple, que a la taula 10.6 el grup ètnic Spanish té una observació per al període 1946-1976 i un altre del període 1977-1979. Podríem canviar la unitat d’observació i establir que cada fila de la base de dades fos un grup ètnic per estat en un any determinat, però això ens portaria a tenir moltes files amb la mateixa informació, ja que l’estatus (columna status) del grup Spanish seria de monopoli a cada observació.

    Taula 10.6: Ethnic Power Relations dataset (v1.1)
    gwid statename from to group size status reg_aut
    230 Spain 1946 1976 Spanish 0.680 MONOPOLY NA
    230 Spain 1946 1976 Catalans 0.169 DISCRIMINATED FALSE
    230 Spain 1946 1976 Galicians 0.060 DISCRIMINATED FALSE
    230 Spain 1946 1976 Basques 0.054 DISCRIMINATED FALSE
    230 Spain 1946 1976 Roma 0.019 DISCRIMINATED FALSE
    230 Spain 1977 1979 Spanish 0.680 DOMINANT NA
    230 Spain 1977 1979 Catalans 0.169 POWERLESS FALSE
    230 Spain 1977 1979 Galicians 0.060 POWERLESS FALSE

    També podríem considerar com a segona imatge tots aquells fenòmens polítics o socials que es produeixen específicament en el marc del sistema polític, com revolucions, revoltes o cops d’estat. La Coup Agency and Mechanisms Dataset (Powell & Thyne, 2011), que veiem parcialment a la taula 10.7, ha quantificat els cops d’estat que hi ha hagut al món des de 1950. En aquest cas, la unitat d’anàlisi i la unitat d’observació coincideixen, ja que cada observació és un cop d’estat diferent, que és el fenomen que volem estudiar.

    Fenòmens polítics o socials

    Aquests tipus de fenòmens són de tall molt diferent i no tots es podran categoritzar com a segona imatge. En l’àmbit polític, trobem exemples com les violacions d’alto el foc, informes anuals corporatius, posts públics de Facebook o bombes intel·ligents. En l’àmbit social, molts exemples clàssics de la Sociologia són la immigració, el racisme, el crim, el matrimoni o la religió.

    Taula 10.7: Coup Agency and Mechanisms dataset (v3.0)
    cowcode region year country no coup successful date combat
    40 5 1952 Cuba 1 1 1 1952-03-10 1
    40 5 1957 Cuba 1 1 0 1957-09-05 1
    41 5 1950 Haiti 1 1 1 1950-05-10 0
    41 5 1956 Haiti 1 1 0 1956-12-06 0
    41 5 1957 Haiti 1 1 1 1957-04-02 0
    41 5 1957 Haiti 2 1 1 1957-05-21 0
    41 5 1957 Haiti 3 1 1 1957-06-14 0
    41 5 1958 Haiti 1 1 0 1958-07-03 1

    La ubicació en la classificació de Waltz dels fenòmens polítics i socials sempre pot venir condicionada pel nivell d’anàlisi dels actors que estan involucrats en aquestes interaccions.

    10.3.3 Primera imatge

    Altres estudis han estat més interessats a mirar a dins de la caixa dels estats, de manera que també trobem bases de dades que classifiquen i descriuen les característiques dels líders polítics. La base de dades Rulers, Elections and Irregular Governance (REIGN) (Bell et al., 2021), de la qual observem una part a la taula 10.8, inclou informació sobre més de 2.300 líders individuals en 201 països diferents. La unitat d’anàlisi són els líders polítics i la unitat d’observació és el líder-any-mes.

    Primera imatge

    La primera imatge es refereix principalment a les característiques dels individus. Així, podem anar d’explicacions més essencialistes del comportament humà, com l’ànsia de poder, fins a qüestions més existencialistes. Mitjançant aquest marc podem investigar lideratges polítics com Otto von Bismarck, Napoleó o George W. Bush, com també l’opinió d’individus i famílies en una societat.

    Taula 10.8: Rulers, Elections and Irregular Governance dataset (v2021.8)
    ccode country leader year month elected age male militarycareer tenure_months gov_democracy
    2 USA Clinton 2000 8 1 54 1 0 92 1
    2 USA Clinton 2000 9 1 54 1 0 93 1
    2 USA Clinton 2000 10 1 54 1 0 94 1
    2 USA Clinton 2000 11 1 54 1 0 95 1
    2 USA Clinton 2000 12 1 54 1 0 96 1
    2 USA Clinton 2001 1 1 55 1 0 97 1
    369 Ukraine Zelensky 2019 5 1 41 1 0 1 1
    369 Ukraine Zelensky 2019 6 1 41 1 0 2 1
    369 Ukraine Zelensky 2019 7 1 41 1 0 3 1
    369 Ukraine Zelensky 2019 8 1 41 1 0 4 1

    I òbviament també podem estudiar individus, una de les unitats d’anàlisi més comunes en moltes disciplines de les Ciències Socials, especialment en l’Economia. A la taula 10.9 veiem una mostra de la World Values Survey (Inglehart et al., 2020), una de les bases de dades d’opinió pública més utilitzades a escala internacional, que cada cinc anys organitza enquestes en desenes de països del món amb l’objectiu de realitzar estudis comparats sobre les opinions i els valors entre cultures i entre generacions. La darrera onada de 2022 recull les opinions de la ciutadania de més de seixanta països. En aquest cas, la unitat d’anàlisi i la unitat d’observació també coincideixen, perquè volem estudiar l’opinió dels individus i cada observació és l’opinió d’un individu diferent.

    Taula 10.9: World Values Survey dataset Wave 2017-2020 (v7)
    A_WAVE C_COW_ALPHA C_COW_NUM A_YEAR Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8
    7 AND 232 2018 1 1 1 3 1 4 1 1
    7 AND 232 2018 1 1 1 4 1 4 1 2
    7 AND 232 2018 1 2 2 2 3 3 2 1
    7 AND 232 2018 1 1 1 4 2 4 1 2
    7 AND 232 2018 1 1 1 3 1 3 1 2
    7 AND 232 2018 1 3 1 4 1 3 1 2
    7 AND 232 2018 1 2 1 4 1 2 1 2
    7 AND 232 2018 1 1 1 1 1 3 1 2