13  Construir un índex

En les seccions anteriors hem descobert que l’IDH es construeix a partir de tres dimensions. Ja podem intuir que uns valors alts en ingressos, educació i salut porten a un IDH alt i que uns valors baixos en ingressos, educació i salut porten a un IDH baix. Encara, però, desconeixem la manera com aquestes xifres es transformen en els valors finals de l’índex. Per poder fer la corresponent transformació i convertir els quatre indicadors en una única mesura, ens caldrà seguir els tres procediments principals de construcció d’un índex compost:

En aquest apartat els paquets que utilitzarem són els mateixos que en l’apartat anterior:

13.1 Normalització

Sempre ens diuen que no podem barrejar peres i pomes. Aquesta és una expressió que s’utilitza per il·lustrar que no es poden comparar coses diferents. Les peres es poden comparar només amb peres i les pomes només amb pomes.

El mateix passa amb els indicadors. Barrejar variables que representen unitats diferents ens porta a problemes de comparabilitat. Vegem-ne un exemple a la Taula 13.1, on hem sumat els diferents indicadors que conformen l’IDH en una variable que hem anomenat IDH_sum. La Suma és una de les maneres de combinar variables que hem vist en un apartat anterior. IDH_sum és la suma dels valors GNI + E1 + E2 + LE per a cada país. Segons aquest procediment, el país amb millor IDH (sota els paràmetres de la variable IDH_sum) seria Qatar malgrat tenir xifres més aviat discretes en educació. Brunei i Kuwait tampoc tenen ni una educació ni una esperança de vida alta, però ocuparien els primers llocs de la taula. Això es deu a que els valors del GNI són molt elevats en comparació a l’educació o l’esperança de vida. El GNI està mesurat en dòlars i la majoria de països es mouen entre varis milers. En canvi, l’educació es mou en xifres inferiors als 20 anys d’escolarització i l’esperança de vida es mou entre intervals de vàries desenes. Acabem de barrejar peres i pomes. Això fa que el pes del GNI sigui desproporcionat en relació als altres indicadors pel simple fet d’estar mesurat amb unitats més grans.

Taula 13.1: IDH segons la suma dels seus components
P country IDH GNI E1 E2 LE IDH_sum
1 Qatar 0.856 116818 13.4 9.8 78.3 116919.5
2 Liechtenstein 0.916 97336 14.7 12.5 80.4 97443.6
3 Singapur 0.932 82503 16.2 11.5 83.2 82613.9
4 Brunei 0.853 76427 14.5 9.1 77.4 76528.0
5 Kuwait 0.803 70524 13.6 7.3 74.8 70619.7

És evident que l’IDH no està construït amb una simple suma dels seus components. Tampoc les altres maneres de combinar indicadors que hem après fins ara ens donarien resultats satisfactoris. L’exemple de la Taula 13.2 és encara més clar. Aràbia Saudita i Islàndia són dos països amb un nivell d’ingressos per càpita molt semblant. Els habitants de les dues poblacions guanyen més o menys el mateix de mitjana. En canvi, en educació i salut Islàndia té unes xifres bastant més elevades en termes relatius que Aràbia Saudita. Els islandesos han tingut més anys de formació i han viscut vuit anys més que els saudites. Això es reflecteix en què Islàndia ocupa el sisè lloc en el rànquing de 2017 si ordenem els resultats per l’IDH (columna IDH), mentre que Aràbia Saudí ocupa el lloc 40. Si utilitzéssim una simple suma, com veiem a IDH_sum, Aràbia Saudita estaria classificada millor que Islàndia.

Taula 13.2: Comparació entre Islàndia i Aràbia Saudita
P country IDH GNI E1 E2 LE IDH_sum
6 Islàndia 0.935 45810 19.3 12.4 82.9 45924.6
40 Aràbia Saudita 0.853 49680 16.9 9.5 74.7 49781.1

Les xifres mesurades en unitats grans tenen molta més força en el total de l’índex que no pas les xifres mesurades en unitats més petites. Per evitar que això passi, haurem de normalitzar els indicadors i fer que les variables es moguin en paràmetres semblants. La normalització converteix variables de paràmetres diferents en mesures d’escala semblant per fer-les comparables entre elles i poder-les agregar en un índex final. Principalment existeixen tres mètodes de normalització:

13.1.1 MinMax

L’IDH utilitza el mètode MinMax, que consisteix a convertir els paràmetres de la distribució en una escala de 0 a 1 assignant un valor mínim i un valor màxim. Aquesta és la fórmula mitjançant la qual s’obtenen els valors a través del mètode MinMax:

\[MinMax = \frac{valor - valor.minim}{valor.maxim - valor.minim}\] Intentem ara aplicar el mètode MinMax a l’esperança de vida (columna LE) de la manera com ha fet el PNUD en les seves notes tècniques. A la pàgina 2 es justifica una normalització teòrica dels valors, pels quals s’estableix 85 com a valor màxim de la distribució i 20 com a valor mínim. Apliquem el mètode MinMax segons aquesta informació:

\[MinMax(LE) = \frac{valor(LE) - 20}{85 - 20}\]

Exercici 13.1 (Normalitzar l’esperança de vida) Examina les notes tècniques de l’IDH i respon:

  1. Com es justifica el màxim d’esperança de vida de 85? I el mínim de 20?
  2. Què passaria si un país superés la mitjana de 85 anys d’esperança de vida?

Ara podem aplicar aquesta fórmula a tots els països de la base de dades, de manera que si un país s’acosta al màxim de 85 tindrà un valor proper a 1 mentre que si un país s’acosta al mínim de 20 tindrà un valor proper a 0. En la següent Taula 13.3 hem aplicat la fórmula a uns quants països de la mostra. El Japó té un valor proper a 1 perquè té una esperança de vida de 83.9, molt a prop del màxim que és 85. Per contra, Sierra Leone té una esperança de vida de 52.2 i rep un índex de 0.495.

Taula 13.3: Esperança de vida en alguns països
country LE MinMax_LE
Japó 83.9 0.983
Estats Units 79.5 0.915
Argentina 76.7 0.872
Congo - Kinshasa 60.0 0.615
Sierra Leone 52.2 0.495

Amb el mínim i el màxim que el PNUD estableix per a cada indicador, ja podem normalitzar-los aplicant a cadascun d’ells la fórmula que els correspon. En el cas del GNI, el valor màxim són 75.000 dòlars i el valor mínim 100 dòlars. Per tant, si un país és molt pobre i de mitjana els seus habitants guanyen 100 dòlars l’any li assignarem un valor 0 i si un país és molt ric i de mitjana els seus habitants guanyen 75.000 dòlars l’any li assignarem un valor 1. La resta de països oscil·laran entre 0 a 1 en funció d’aquests valors mínim i màxim. El càlcul del GNI es fa mitjançant el logaritme neperià], de manera que els increments de renda en valors baixos són més sensibles a l’índex que no pas els increments de renda en valors alts. En la dimensió d’educació hem de tenir present que hi ha dues variables: la mitjana d’anys d’escolarització i l’escolarització esperada.

La Taula 13.4 representa el resultat d’aplicar el codi que trobem a continuació a l’objecte hdi_t. Hem replicat els països seleccionats a la taula anterior i hem aplicat el mètode MinMax a tots quatre indicadors. Podeu observar també que hem mantingut una columna amb l’IDH original (columna IDH) i hem creat el nostre propi IDH (li diem IDH2) a partir de la mitjana dels indicadors normalitzats 1. Hauríem d’esperar que els valors de la columna IDH coincideixin amb la columna IDH2 que hem creat nosaltres (avís: veureu que no coincideixen). Per ser fidels al sistema IDH, també hem arrodonit les xifres resultants a tres decimals amb la funció round().

  • 1 Obtenim la mitjana sumant el valor de cada indicador i dividint el resultat per quatre, que equival al nombre de casos

  • hdi_t <- hdi %>%
      mutate(GNI_MM = if_else(GNI > 75000, 1, round((log(GNI) - log(100)) / (log(75000) - log(100)), 3)),
             E1_MM = if_else(E1 > 18, 1, round(((E1 - 0) / (18 - 0)), 3)),
             E2_MM = if_else(E2 > 15, 1, round((E2 - 0) / (15 - 0), 3)),
             LE_MM = round((LE - 20) / (85 - 20), 3),
             IDH2 = round((GNI_MM + E1_MM + E2_MM + LE_MM) / 4, 3))
    hdi_t %>%
      select(country, GNI_MM, E1_MM, E2_MM, LE_MM, IDH2, IDH) %>%
      filter(country %in% c("Estats Units", "Argentina", "Congo - Kinshasa", "Japó", "Sierra Leone")) %>%
      arrange(desc(IDH2))
    Taula 13.4: Esperança de vida i esperança de vida normalitzada amb MinMax
    country GNI_MM E1_MM E2_MM LE_MM IDH2 IDH
    Estats Units 0.953 0.917 0.893 0.915 0.919 0.924
    Japó 0.901 0.844 0.853 0.983 0.895 0.909
    Argentina 0.788 0.967 0.660 0.872 0.822 0.825
    Congo - Kinshasa 0.313 0.544 0.453 0.615 0.481 0.457
    Sierra Leone 0.380 0.544 0.233 0.495 0.413 0.419

    Les columnes GNI_MM, E1_MM, E2_MM i LE_MM ens mostren els indicadors normalitzats de cada un dels països de la nostra selecció. La normalització permet convertir magnituds diferents en paràmetres que es mouen en la mateixa escala. Amb el mètode MinMax els indicadors es mouen en escala de 0 a 1, de manera que ens resulta més fàcil comparar-los entre ells i barrejar peres i pomes. A la columna IDH2 es mostra la mitjana dels quatre indicadors2. Si la comparem amb l’IDH real (columna IDH), veiem que els valors són semblants entre columnes però no coincideixen exactament. Això vol dir que encara ens falta algun procediment més per fer. En concret, encara hem de veure com es ponderen i s’agreguen les variables de l’índex.

  • 2 També tindria sentit ser una suma, com veníem mostrant en els darrers exemples, ja que tant la mitjana com la suma tenen el mateix efecte aritmètic sobre l’agrupació de les variables.

  • Exercici 13.2 (Canviar mínims i màxims) Observa atentament el codi que hem generat per crear l’objecte hdi_t. Veuràs que dins de la funció mutate() hem establert les normalitzacions per a cada indicador:

    1. Canvia el GNI_MM a un mínim de 250 i un màxim de 100000.
    2. Canvia LE_MM a un mínim de 35 i un màxim de 90.
    3. Observa els resultats per als mateixos països. Com han canviat els valors?

    Abans de continuar els passos de construcció d’un índex amb els mètodes de ponderació i agregació, veurem altres maneres d’establir els valors mínim i màxim amb el mètode MinMax i també veurem altres mètodes de normalització diferents al MinMax. Fins ara us hem explicat que el PNUD ha utilitzat una normalització teòrica. Quan normalitzem teòricament, estem utilitzant alguna raó concreta basada en supòsits teòrics per justificar els valors mínims i màxims dels indicadors. Establim que un número concret serà el mínim i un altre número serà el valor màxim i els hi assignem els valors 0 i 1.

    L’altra opció que tenim és la normalització empírica. Quan normalitzem empíricament, agafem el mínim i el màxim dels valors que tenim a la nostra distribució per normalitzar. No establim cap valor a priori, sinó que simplement prenem com a referència el valor màxim i el mínim de les nostres dades i els hi assignem els valors 0 i 1. La resta de valors es mouran entre aquests intervals.

    En la següent Taula 13.5 hem normalitzat empíricament els quatre indicadors de l’IDH i hem seleccionat els països que tenen el valor màxim i el valor mínim de cada indicador, així com també els que tenen el valor màxim i el valor mínim en l’IDH2t que anteriorment hem normalitzat teòricament i l’IDHe que acabem de normalitzar empíricament.

    Taula 13.5: Normalització empírica de l’IDH
    country GNI_MMe E1_MMe E2_MMe LE_MMe IDH2t IDH2e
    Austràlia 0.809 1.000 0.905 0.969 0.937 0.921
    Noruega 0.895 0.722 0.881 0.944 0.944 0.861
    Alemanya 0.820 0.672 1.000 0.909 0.938 0.850
    Hong Kong (RAE Xina) 0.866 0.633 0.833 1.000 0.913 0.833
    Qatar 1.000 0.472 0.659 0.818 0.824 0.737
    Burkina Faso 0.176 0.200 0.000 0.270 0.406 0.162
    Sierra Leone 0.121 0.272 0.159 0.000 0.413 0.138
    Sudan del Sud 0.072 0.000 0.262 0.160 0.377 0.124
    Níger 0.060 0.028 0.040 0.257 0.347 0.096
    República Centreafricana 0.000 0.128 0.222 0.022 0.370 0.093

    Exercici 13.3 (Diferències entre normalització teòrica i empírica) Fixa’t amb la Taula 13.5 i compara els resultats amb les taules que hem vist anteriorment. Respon a la següent pregunta:

    1. Per què Qatar té assignat el valor 1 a la columna GNI_MMe? Per què la República Centre Africana té assignat el valor 0?

    En codi d’R, per establir un mètode MinMax empíric seria el següent: (x - min(x)) / (max(x) - min(x)). Aquesta funció localitza el valor mínim i el valor màxim de la distribució, de manera que tots els valors oscil·laran entre aquests dos extrems. Per exemple, si el valor màxim fos 50 i el mínim 10, el valor 25 es normalitzaria de la següent manera: (25 - 10) / (50 - 10) = 15 / 40 = 0.375. Per a un MinMax teòric, s’han de substituir els màxims i els mínims pels valors que vulguem.

    13.1.2 ZScores

    El mètode ZScores té una lògica diferent al MinMax, ja que els punts de referència clau per construir l’indicador no són el valor màxim i el valor mínim, sinó la mitjana i la desviació típica de la distribució3. Aquest mètode de normalització estableix com a valor 0 la mitjana de la nostra mostra, mente que tots els casos varien en funció de la seva posició respecte la mitjana, tenint en compte la desviació típica.

  • 3 Aquest mètode de normalització és probablement el més complet de tots els existents però té dos problemes principals. El primer és que els resultats són menys intuitius i poden costar més d’interpretar per a un públic menys especialitzat. A simple vista pot ser molt més fàcil observar uns resultats que oscil·len entre 1 i 0 que no pas amb positius i negatius com fa Z-Scores. El segon problema és que ZScores utilitza nombres negatius, cosa que complica realitzar algunes operacions com les agregacions geomètriques.

  • \[ZScores = \frac{valor - mitjana}{desviacio.tipica}\]

    Fixem-nos amb la fórmula de ZScores. A la part del numerador estem restant la mitjana al valor d’un país determinat. Això farà que en la normalització final els valors que estiguin per sobre de la mitjana de la distribució tinguin signe positiu mentre que els valors que estiguin per sota de la mitjana tinguin signe negatiu. Si algún nombre coincideix amb la mitjana, aquest tindrà valor 0.

    Exercici 13.4 (Prova amb Z-Scores) Per veure com funciona el numerador de ZScores crearem el vector ex1 amb el codi: ex1 <- sample(10, replace = TRUE). Aquest codi genera una distribució aleatòria de valors compresos entre 1 i 10.

    1. Un cop hagueu creat el vector, en primer lloc visualitzeu-lo teclejant ex1 i observeu quina és la mitjana amb mean(ex1).
    2. A continuació, apliqueu-li la fórmula ex1 - mean(ex1), que restarà cada valor d’ex1 per la mitjana de la distribució. Compara els valors d’ex1 amb els de la fórmula i digues quins tenen signe negatiu i quins el tenen positiu. Treu-ne les conclusions pertinents.

    El següent pas per normalitzar amb ZScores serà dividir cada valor per la desviació típica de la distribució. La desviació típica ens diu com de dispersos estan els valors respecte la mitjana segons les unitats amb què estan mesurats els valors de la distribució. És a dir, ZScores divideix el numerador per un denominador petit (la desviació típica) si els valors de la distribució estan molt a prop de la mitjana o tenen valors petits, mentre que dividirà el numerador per un denominador més gran si els valors de la distribució estan més allunyats de la mitjana o tenen valors més grans.

    Exercici 13.5 (Comprendre la desviació típica) En aquest exercici hem creat dues distribucions, displ i closel, que tenen el mateix rang: el valor més petit és 1 i el més gran és 20.

    1. Apliqueu la funció mean() i observareu com les dues distribucions tenen la mateixa mitjana. Sabríeu dir quina és?
    displ <- c(1,2,3,10,15,19,20)
    closel <- c(1,7,9,10,11,12,20)
    1. Fixeu-vos, però, que una distribució té valors més propers a la mitjana que l’altra. Això ho veureu més clarament si apliqueu la funció plot() com es mostra en el codi següent (haureu de seleccionar a la vegada la línia de codi de plot i la de points per visualitzar-ho correctament).
    plot(displ, closel)
    points(mean(displ), mean(closel), col = "red")
    1. Aquesta diferència de distàncies amb la mitjana es tradueix amb una desviació típica diferent: la distribució amb els nombres més allunyats tindrà una desviació típica més alta i la distribució amb els nombres més propers tindrà una desviació típica més baixa.
    2. Proveu de completar la normalització de displ i closel amb ZScores, com indiquem a continuació. Sabríeu interpretar per què els valors extrems (1 i 20) queden més reduïts a displ que a closel?
    (displ - mean(displ))/sd(displ) 
    (closel - mean(closel))/sd(closel) 
    1. Creeu ara els objectes displb i closeb on multipliqueu per 10 cada valor de l’objecte anterior i repetiu tot el procediment de l’exercici. Sabríeu interpretar els resultats?
    displb <- displ * 10
    closelb <- closel * 10

    En el codi següent hem aplicat la normalització dels indicadors de l’IDH amb ZScores (x - mean(x)) /sd(x)) per crear el marc de dades hdi_ZS. A la següent Taula 13.6 observem els països que tenen els valors més extrems de cada indicador, així com el país que té l’IDH més proper a la mitjana.

    hdi_ZS <- hdi_t %>%
      mutate(GNI_ZS = round((log(GNI) - mean(log(GNI))) /sd(log(GNI)), 3),
             E1_ZS = round((E1 - mean(E1)) / (sd(E1)), 3),
             E2_ZS = round((E2 - mean(E2)) / (sd(E2)), 3),
             LE_ZS = round((LE - mean(LE)) / (sd(LE)), 3),
             IDHZS = round((GNI_ZS + E1_ZS + E2_ZS + LE_ZS) / 4, 3)) %>%
      select(country, GNI_ZS, E1_ZS, E2_ZS, LE_ZS, IDHZS)
    Taula 13.6: Països amb indicadors més extrems amb ZScores
    country GNI_ZS E1_ZS E2_ZS LE_ZS IDHZS
    Austràlia 1.238 3.283 1.403 1.433 1.839
    Alemanya 1.286 1.275 1.790 1.184 1.384
    Hong Kong (RAE Xina) 1.483 1.036 1.113 1.564 1.299
    Qatar 2.059 0.049 0.403 0.804 0.829
    Belize -0.263 -0.155 0.629 -0.204 0.002
    Burkina Faso -1.485 -1.619 -2.276 -1.487 -1.717
    Sierra Leone -1.723 -1.177 -1.630 -2.614 -1.786
    Sudan del Sud -1.934 -2.845 -1.211 -1.946 -1.984
    República Centreafricana -2.244 -2.062 -1.372 -2.522 -2.050
    Níger -1.984 -2.674 -2.115 -1.540 -2.078

    Exercici 13.6 (Màxims i mínims amb ZScores) Identifica quina és la mitjana de cada columna amb summary(hdi_ZS) (el resultat hauria de ser obvi). Fixa’t amb la Taula 13.6 i identifica:

    1. El país que es troba més proper a la mitjana en cada indicador.
    2. Els països que es troben per sobre de la mitjana en cada indicador.
    3. Els països que es troben per sota de la mitjana en cada indicador.
    4. Els països que tenen un valor màxim i un valor mínim a cada indicador.
    5. El país que es troba més allunyat de la mitjana.

    Fixeu-vos que la normalització amb Z-Scores només pot ser empírica ja que els dos punts de la distribució que necessitem per normalitzar (la mitjana i la desviació típica) venen marcats per les dades, no per la teoria. Això vol dir que no triem com normalitzar a partir de cap raonament conceptual o teòric, sinó que ho fem a partir de la substància empírica que tenim disponible.

    13.1.3 Escala

    El mètode Escala consisteix a ordenar els valors de la distribució en un rànquing. El valor més alt se li assignarà el valor 1 mentre que el valor més baix se li assignarà el valor 0. La resta de valors variaran entre 1 i 0 i es normalitzaran en funció de la posició que ocupen en el rànquing. A diferència del MinMax, el mètode Escala no té en compte la distància d’un determinat valor respecte el valor màxim i el valor mínim, sinó que només té en compte quina és la posició que ocupa cada valor en la distribució ordenada. Així, en una distribució amb 5 casos, el valor més alt rebria el valor 1, el segon més alt valor 0.75, el tercer 0.50, el quart 0.25 i el valor més baix 0. Tots els valors normalitzats tenen la mateixa distància entre sí independentment de com de prop o de lluny estiguessin els valors en la distribució original. El mètode Escala divideix l’interval entre 0 i 1 amb tantes parts com observacions tinguem a la nostra distribució i assigna a cada observació un lloc en funció de la seva posició en el rànquing. Això vol dir que una observació tindrà la mateixa distància amb la observació de davant i l’observació de darrere.

    \[Escala = \frac{lloc.ranking}{num.paisos}\]

    Traslladat a codi R, la manera per normalitzar segons el mètode d’Escala és percent_rank(). També existeixen funcions que apliquen algunes variants. Podeu consultar-les amb ?ranking.

    Exercici 13.7 (Normalització amb Escala) Normalitza les distribucions dels següents codis aplicant el mètode Escala amb percent_rank() (exemple: percent_rank(one)):

    1. Com es normalitza quan tenim 11 valors? I quan en tenim dos?
    2. Quin és el problema lògic que sorgeix quan tenim varis valors iguals en una mateixa variable? Com ho resol R per defecte?
    3. Observa la normalització en els objectes four i five. El canvi de magnitud d’un dels valors altera la normalització en Escala? Ho faria en la normalització en MinMax? Fes la prova amb els dos mètodes.
    one <- c(0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100)
    two <- c(0, 1, 2, 3, 5, 5, 5, 7, 8, 9, 10)
    three <- c(1, 2)
    four <- c(1, 2, 3, 4, 5, 6)
    five <- c(1, 2, 3, 4, 5, 60000)

    En el següent codi hem normalitzat els valors originals de l’IDH amb el mètode Escala i hem creat l’objecte hdi_ES. A continuació, hem generat la Taula 13.7 amb les primeres 10 observacions del marc de dades. Fixeu-vos com el país amb els valors més alts de cada columna té assignat el valor 1, el segon el valor 0.995, el tercer el valor 0.989, el quart el valor 0.984, i així successivament. Això significa que, en aquest cas, l’interval que separa cada una de les posicions del rànquing és d’entre 0.005 i 0.006.

    hdi_ES <- hdi_t %>%
      mutate(GNI_ES = round((percent_rank(log(GNI))), 3),
             E1_ES = round((percent_rank(E1)), 3),
             E2_ES = round((percent_rank(E2)), 3),
             LE_ES = round((percent_rank(LE)), 3),
             IDHES = round((GNI_ES + E1_ES + E2_ES + LE_ES) / 4, 3)) %>%
      select(P, country, GNI_ES, E1_ES, E2_ES, LE_ES, IDHES) %>%
      arrange(desc(IDHES)) %>%
      mutate(P = 1:n(),
             IDHES = round((percent_rank(IDHES)), 3))
    Taula 13.7: Primeres observacions de l’IDH segons normalització amb Escala
    P country GNI_ES E1_ES E2_ES LE_ES IDHES
    1 Austràlia 0.894 1.000 0.963 0.968 1.000
    2 Noruega 0.973 0.957 0.926 0.931 0.995
    3 Suïssa 0.952 0.846 0.989 0.989 0.989
    4 Islàndia 0.904 0.984 0.888 0.963 0.984
    5 Irlanda 0.941 0.989 0.904 0.894 0.979
    6 Suècia 0.920 0.947 0.888 0.947 0.973
    7 Alemanya 0.910 0.920 1.000 0.867 0.968
    8 Dinamarca 0.931 0.979 0.926 0.851 0.963
    9 Canadà 0.888 0.872 0.984 0.941 0.957
    10 Països Baixos 0.926 0.968 0.862 0.915 0.952

    Exercici 13.8 (El Top 10 del rànking amb Escala) Observa atentament la Taula 13.7 i respon a les següents preguntes:

    1. Quin valor normalitzat rep el país més ben classificat? I el segon? Fes una llista dels quatre primers valors que reben els països més ben classificats.
    2. Quin és exactament l’interval que separa cada observació en el rànquing d’Escala? Ho pots calcular amb una simple resta.

    Per últim, comprovarem com canvia d’índex segons els diferents mètodes de normalització que hem après. En la Taula 13.8 podem observar la posició que ocupen els països amb un IDH més elevat segons els diferents mètodes de normalització que hem vist (MinMax teòric, MinMax empíric, ZScores i Escala). Veiem que Noruega ocuparia el primer lloc si normalitzéssim segons els procediments de PNUD (que utilitza MinMax i decideix els mínims i els màxims de forma teòrica), mentre que ocuparia entre el segon i el quart lloc segons els altres mètodes de normalització. Austràlia, en canvi, tercera en la columna IDH2t, ocuparia el primer lloc en les altres.

    Taula 13.8: Lloc del rànquing de l’IDH segons els tres tipus de normalització
    country IDH2t IDH2e IDHZS IDHES
    Noruega 1 4 4 2
    Alemanya 2 7 7 7
    Austràlia 3 1 1 1
    Irlanda 4 2 2 5
    Suïssa 5 5 8 3
    Islàndia 6 3 3 4
    Dinamarca 7 6 5 8
    Països Baixos 8 11 11 10
    Suècia 9 9 10 6
    Regne Unit 10 15 12 11

    Aquesta darrera taula ens ajuda a reflexionar sobre la conclusió més important d’aquest apartat: la posició que ocupen cada una de les observacions ordenades en un rànquing és sensible al mètode de normalització que escollim. Normalitzar és un pas necessari en la construcció d’un índex però que també distorsiona el valor que rebrà cada observació. És important, doncs, que justifiquem molt bé els motius pels quals triem un mètode de normalització i no un altre.4

  • 4 Alguns dels motius podrien ser que MinMax o ZScores faciliten la comparabilitat entre anys, que ZScores suporta millor la presència de valors extrems o que MinMax i Escala no treballen amb nombres negatius, pel qual seran preferibles si tenim la necessitat de logar alguna de les variables o que volem utilitzar l’agregació geomètrica (algunes d’aquestes discussions estan breument recollides a (OECD, 2008: 83-88)).

  • 13.2 Ponderació

    Un cop hem vist totes les tècniques diferents de normalització, hem de passar al proper pas que és la ponderació. Anteriorment ja hem comprovat que amb la normalització no en tenim suficient per saber com el PNUD ha calculat l’IDH. Això pot ser degut a que no totes les variables tenen el mateix pes en la confecció de l’índex. Quan ponderem, assignem pesos diferents als indicadors que conformen l’índex. Fins ara hem considerat que les quatre variables tenien la mateixa importància, de manera que cada indicador valia un 25% en el càlcul de l’índex final. Alternativament, podem considerar que alguns indicadors són més importants que d’altres i per això han de tenir més pes. A l’hora de decidir quina ponderació apliquem als indicadors acostumem a utilitzar dos criteris:

    • Ponderació teòrica: Lligat a la conceptualització, ja que segons com haguem definit l’objecte en qüestió podem pensar que hi ha parts que valen més que altres.

    • Ponderació empírica: Lligat al significat empíric de les dades de què disposem.

    13.2.1 Ponderació teòrica

    La ponderació teòrica dels indicadors es fonamenta a partir de la conceptualització que hem fet d’allò que estem mesurant. En la conceptualització de l’IDH, per exemple, s’argumenta que el desenvolupament humà està format per tres dimensions principals: l’educació, els ingressos i la salut. A més, també diu que no hi ha cap part que sigui més important que l’altra. Això significa que a l’hora d’establir pesos, cada dimensió valdrà el mateix.

    L’IDH està ponderat sota fonaments teòrics. Si repassem algunes de les teoritzacions principals sobre el desenvolupament humà, hi trobarem pàgines i pàgines a justificar, en primer lloc, què entenen per desenvolupament humà, i en segon lloc, quines poden ser unes bones mesures del desenvolupament humà (Haq, 1999; Sen, 1981; UNDP, 1990). En la seva teoria de les capacitats, Sen explicava que les persones no només han de tenir capacitat econòmica, sinó també han de tenir la capacitat de transformar recursos en activitats valuoses (això ens ho pot facilitar l’educació) i així com la capacitat de fer coses amb el seu temps lliure (per tant hauran de gaudir de bona salut).

    Així doncs, l’IDH hauria de constar de tres dimensions que a priori haurien de tenir el mateix pes entre elles: ingressos, educació i salut. Per tant, haurem de ponderar els quatre indicadors que tenim per tal que tinguem tres dimensions amb el mateix pes cada una. Fins ara hem fet una simple suma i com que teníem quatre indicadors, que cada indicador representava un 25% del valor total de l’IDH. Com que resulta que cada dimensió representa un terç de l’índex, la ponderació teòrica hauria de ser de la següent manera:

    • Ingressos: La dimensió valdrà un terç de l’índex i estarà formada per l’indicador GNI per càpita.
    • Educació: La dimensió valdrà un terç de l’índex i estarà formada pels indicadors educació esperada i educació mitjana. Per tant, cada un d’aquests indicadors valdrà una sisena part de l’índex final.
    • Sanitat: La dimensió valdrà un terç de l’índex i estarà formada per la variable esperança de vida.
    Ingressos Educació Salut
    GNI Ed. esperada — Ed. mitjana Esperança vida
    Sense ponderació 25% 25 % —— 25 % 25 %
    Amb ponderació 33.3% 16.6 % —— 16.6 % 33.3 %

    Amb aquesta informació, ja podem ponderar les variables de l’IDH per tal que totes les dimensions comptin un terç sobre l’índex final. Si ens ho mirem des de la perspectiva de les variables, la variable que conforma la dimensió d’ingressos comptarà un terç sobre l’índex final, les dues variables d’educació comptaran una sisena part de l’índex final i la variable que conforma la dimensió de sanitat comptarà un terç sobre l’índex final. A la següent Taula 13.9 en veiem el resultat, on observem els cinc països millor puntuats i els cinc pitjor puntuats. Hem creat la columna E_MM, que és la mitjana de les dues variables d’educació ((E1_MM+E2_MM)/2). La columna IDHp ens mostra la ponderació que hem aplicat mentre que la columna IDH ens mostra l’IDH tal com està calculat pel PNUD (avís: veureu que no coincideixen).

    Taula 13.9: IDH amb MinMax i ponderació teòrica
    P country GNI_MM E_MM LE_MM IDHp IDH
    1 Noruega 0.985 0.917 0.958 0.953 0.953
    2 Suïssa 0.960 0.897 0.977 0.945 0.944
    3 Austràlia 0.918 0.930 0.971 0.940 0.939
    4 Irlanda 0.950 0.916 0.948 0.938 0.938
    5 Alemanya 0.927 0.942 0.942 0.937 0.936
    184 Sierra Leone 0.380 0.388 0.495 0.421 0.419
    185 Burundi 0.294 0.425 0.583 0.434 0.417
    186 Txad 0.432 0.298 0.511 0.414 0.404
    187 Sudan del Sud 0.342 0.296 0.574 0.404 0.388
    188 República Centreafricana 0.286 0.344 0.506 0.379 0.367
    189 Níger 0.333 0.216 0.622 0.390 0.354

    Com veieu, després de normalitzar els indicadors de l’IDH i ponderar-los amb els mètodes apropiats, encara no hem aconseguit replicar els valors finals de l’índex. Això es deu a que l’IDH té algun altre mecanisme pel qual penalitza els valors baixos. Aquest efecte es nota menys en els països millor classificats a la taula, ja que tenen valors molt semblants en les tres dimensions. En canvi, és més freqüent trobar valors dispars entre els països classificats a la part mitja i baixa del rànquing de l’IDH. Aquests són els més penalitzats en l’índex final. Quan estudiem l’últim pas, l’agregació, veurem quin és aquest mecanisme de penalització i per què s’aplica així.

    13.2.2 Ponderació empírica

    La ponderació teòrica que hem vist fins ara va de la teoria a les dades: fem un raonament teòric i pensem què té sentit des d’un punt de vista conceptual, establim les dimensions del concepte i ho traslladem a les dades com ho hem fet en l’apartat anterior. La ponderació empírica, en canvi, obvia l’exercici teòric i es mou només en el terreny de les dades. En altres paraules, deixa que les dades parlin i ens diguin què té sentit des del punt de vista empíric.

    La ponderació empírica requereix normalment utilitzar alguns procediments estadístics més sofisticats, que s’escapen de l’objectiu d’aquesta obra. Per tant, no els entrarem a analitzar amb molt de detall. La idea clau d’aquest tipus de ponderació està associada amb el significat empíric dels seus indicadors: dues variables tenen el mateix significat empíric quan els valors d’una variable varien exactament igual que els valors de l’altra. Sota aquest punt de vista, sembla raonable que, si ens estan dient exactament el mateix, no tingui massa sentit que formin part de dimensions diferents.

    Exemple: L’índex FIIEI

    Imaginem-nos que estem creant un “índex d’aprofitament de l’assignatura de Fonts d’Informació i Indicadors per a Estudis Internacionals” i seleccionem tres indicadors: nota obtinguda a l’assignatura, hores dedicades i consultes fetes al fòrum. Podem pensar que com més elevada sigui la nota obtinguda, més hores s’hi hagin dedicat i més consultes fetes al fòrum, més s’haurà aprofitat l’assignatura per part de l’estudiant i més alt serà l’índex. Quan mirem les dades de cada estudiant, resulta que trobem una relació perfecta entre nota obtinguda i hores dedicades: aquells estudiants que han dedicat 10 hores han tret un 10, els que han dedicat 9 hores han tret un 9, etc. Això deu voler dir que empíricament els dos indicadors ens estan dient el mateix: ens indiquen amb la mateixa exactitud una dimensió del concepte. Aquesta dimensió subjacent podria ser, per exemple, l’esforç.

    En canvi, és possible que les consultes fetes al fòrum tinguin una correlació més dèbil amb la primera dimensió. Suposem que l’estudiant que millor nota ha tret ha fet 5 consultes al fòrum, mentre altres estudiants han fet les mateixes consultes i han tret menys nota. És evident que la participació en l’assignatura és un aspecte important de l’“aprofitament” de la mateixa. Però també és evident que les dades ens diuen que no estem mesurant el mateix fenomen. Podem considerar, doncs, que tenim dimensions empíriques diferents i que no han de tenir el mateix pes en l’índex final.

    La manera com atribuïm els pesos pot variar segons el criteri que utilitzem. Per exemple, podem considerar que els dos primers indicadors formaran part d’una mateixa dimensió, que comptarà la meitat de l’índex. L’altre indicador formarà part d’una dimensió diferent i serà l’altra meitat del valor de l’índex.

    L’IDH no utilitza la ponderació empírica i els procediments per ponderar empíricament s’escapen dels objectius d’aquesta obra. Si en voleu saber més, podeu consultar tècniques com l’Anàlisi Factorial (en anglès Factor Analysis) i l’Anàlisi dels Components Principals (en anglès Principal Components Analysis (PCA))5. Aquestes tècniques utilitzen la variança de les combinacions linears dels diferents indicadors per determinar els pesos a partir de l’extracció dels factors/components subjacents6. En el manual de construcció d’indicadors de l’OCDE podem trobar un bon exemple de com es construeix un índex mitjançant PCA (OECD, 2008: 63-72).

  • 5 Per saber com s’utilitza PCA, llegir aquest tutorial de Luke Hayden.

  • 6 De fet, el PNUD ja va estudiar durant els primers anys la possibilitat de ponderar empíricament les variables però després de la publicació de diversos estudis en el report de 1993 es va descartar la idea (Stanton, 2007)

  • 13.3 Agregació

    L’agregació és el mètode que emprem per combinar les variables en l’índex final. Les dues maneres més comunes són amb una simple suma o, com hem fet fins ara, amb la mitjana aritmètica dels seus valors. Vegem-ho al següent codi, on hem creat el marc de dades df_agr de quatre observacions i tres variables: els indicadors indicador1, indicador2 i indicador3. A partir d’aquest marc de dades hem creat la Taula 13.10.

    df_agr <- data.frame(obs = c("A", "B", "C", "D"),
               indicador1 = c(0.95, 0.2, 0.5, 1),
               indicador2 = c(0, 0.7, 0.5, 0.85),
               indicador3 = c(0.8, 0.75, 0.5, 0.70))
    Taula 13.10: Tres indicadors
    obs indicador1 indicador2 indicador3
    A 0.95 0.00 0.80
    B 0.20 0.70 0.75
    C 0.50 0.50 0.50
    D 1.00 0.85 0.70

    Com agreguem els tres indicadors? Estudiarem tres tipus d’agregació: la suma, la mitjana aritmètica i la mitjana geomètrica.

    • La suma és la simple suma dels seus valors. Rarament utilitzarem aquest mètode, perquè perdrem l’escala dels valors (ja no estem entre 0 i 1).

    \[Suma = V1 + V2 + V3 + ... Vn\]

    • La mitjana aritmètica és la mitjana que coneixem, que suma els valors de cada indicador i divideix el resultat pel nombre d’indicadors.

    \[Mitjana.aritmètica = \frac{V1 + V2 + V3 + ... Vn}{N}\]

    • La mitjana geomètrica multiplica els valors de cada indicador i aplica l’arrel del número de casos al resultat final.

    \[Mitjana.geomètrica = \sqrt[n]{V1 * V2 * V3 *... Vn}\]

    En el següent codi hem aplicat les tres diferents agregacions als indicadors del marc de dades df_agr. El resultat és la Taula 13.11.

    df_agr %>%
      mutate(Sum = round(indicador1 + indicador2 + indicador3, 2),
             ArMean = round((indicador1 + indicador2 + indicador3)/3, 2),
             GeoMean = round((indicador1 * indicador2 * indicador3)^(1/3), 2))
    Taula 13.11: Diferents agregacions amb tres indicadors normalitzats
    obs indicador1 indicador2 indicador3 Sum ArMean GeoMean
    A 0.95 0.00 0.80 1.75 0.58 0.00
    B 0.20 0.70 0.75 1.65 0.55 0.47
    C 0.50 0.50 0.50 1.50 0.50 0.50
    D 1.00 0.85 0.70 2.55 0.85 0.84

    Com podeu comprovar, l’observació D és la que té un valor més alt en l’índex final, sigui quin sigui el tipus d’agregació. Ara bé, en les altres observacions hi ha més discrepàncies. Ja us avancem que la suma és una operació que farem en rares ocasions. Per tant, ens centrarem en observar les diferències entre la mitjana aritmètica i geomètrica:

    • El que més crida l’atenció és que, segons la mitjana aritmètica, el segon valor més alt seria A, seguit de B i C. En canvi, segons la mitjana geomètrica, el segon valor més alt seria C, seguit de B i A.
    • Això es deu a que la mitjana geomètrica penalitza els valors baixos. A l’observació B, el valor 0.20 penalitza de manera important en la mitjana geomètrica en relació a l’aritmètica. El cas extrem és quan hi ha presència del valor zero, que farà que l’índex final també sigui zero.
    • La mitjana geomètrica és problemàtica quan tenim valors zero o números negatius. Per tant, si volem aplicar la mitjana geomètrica, la normalització haurà de ser molt probablement teòrica a través del mètode Min-Max, semblant a la de l’IDH, per així podrem evitar valors 0 i valors negatius.

    Exercici 13.9 (Mitjana geomètrica) Per veure les diferències entre la mitjana geomètrica i la mitjana aritmètica, realitzeu els exercicis següents:

    1. Executeu aquest codi per tenir el resultat d’aplicar la mitjana aritmètica i la mitjana geomètrica als valors 100, 100 i 100. Proveu de realitzar les mateixes operacions amb els valors 50, 100 i 150.
    (100 + 100 + 100) / 3
    (100 * 100 * 100)^(1/3)
    1. Executeu aquest codi per tenir el resultat d’aplicar la mitjana aritmètica i la mitjana geomètrica als valors 40, 100 i -20.
    (40 + 100 + -20) / 3
    (40 * 100 * -20)^(1/3)

    L’IDH agrega els seus indicadors a través de la mitjana geomètrica. Els constructors de l’índex van creure oportú penalitzar intencionadament es penalitzen els valors baixos, de manera que si un país té alguna dimensió molt baixa quedarà fortament perjudicat en el seu IDH final. Per observar quin efecte té aquesta circumstància en varis països del rànquing, a la Taula 13.12 hem seleccionat els països que tenen menys variació entre els indicadors que conformen l’IDH i els que tenen més variació, calculats a partir de la desviació típica. També hem inclòs la posició que ocupen en el rànquing de 2018. Els primers 10 països de la taula són els que tenen menys diferència numèrica entre les dimensions i això es tradueix en una penalització pràcticament inperceptible en el seu IDH. En canvi, els darrers 10 països tenen, com a mínim, un valor baix, que penalitza considerablement en el seu índex.

    Taula 13.12: Pèrdua d’IDH amb mitjana geomètrica
    P country GNI LE ED IDH
    5 Alemanya 0.927 0.942 0.942 0.936
    11 Dinamarca 0.932 0.937 0.920 0.929
    159 Lesotho 0.526 0.532 0.504 0.520
    30 Estònia 0.856 0.888 0.871 0.871
    41 Letònia 0.834 0.842 0.866 0.847
    4 Irlanda 0.950 0.948 0.917 0.938
    36 Lituània 0.853 0.843 0.881 0.858
    27 Txèquia 0.865 0.906 0.893 0.888
    38 Eslovàquia 0.859 0.877 0.833 0.855
    10 Països Baixos 0.932 0.954 0.907 0.931
    167 Sudan 0.562 0.688 0.329 0.502
    164 Senegal 0.479 0.731 0.369 0.505
    56 Kuwait 0.991 0.843 0.621 0.803
    181 Libèria 0.287 0.662 0.434 0.435
    152 Illes Salomó 0.443 0.785 0.467 0.546
    178 Iemen 0.380 0.695 0.350 0.452
    173 Etiòpia 0.430 0.706 0.326 0.463
    155 Síria 0.476 0.785 0.414 0.536
    189 Níger 0.333 0.622 0.217 0.354
    179 Eritrea 0.432 0.700 0.283 0.440

    A la Taula 13.13 hem volgut fer una operació semblant a l’anterior, però comparant els valors obtinguts segons la mitjana aritmètica (IDH_aritm) i segons la mitjana geomètrica (IDH_geom). La darrera columna mostra la diferència entre el valor final de l’IDH calculat per una mitjana o l’altra.

    Taula 13.13: Diferència entre mitjana geomètrica i aritmètica
    P country GNI LE ED IDH_aritm IDH_geom diff
    1 Noruega 0.985 0.958 0.917 0.953 0.953 0.000
    4 Irlanda 0.950 0.948 0.917 0.938 0.938 0.000
    5 Alemanya 0.927 0.942 0.942 0.937 0.937 0.000
    8 Suècia 0.932 0.963 0.902 0.932 0.932 0.000
    10 Països Baixos 0.932 0.954 0.907 0.931 0.931 0.000
    11 Dinamarca 0.932 0.937 0.920 0.930 0.930 0.000
    12 Canadà 0.917 0.962 0.899 0.926 0.926 0.000
    13 Estats Units 0.953 0.915 0.905 0.924 0.924 0.000
    14 Regne Unit 0.902 0.949 0.913 0.921 0.921 0.000
    15 Finlàndia 0.909 0.946 0.902 0.919 0.919 0.000
    164 Senegal 0.479 0.731 0.369 0.526 0.506 -0.020
    155 Síria 0.476 0.785 0.414 0.558 0.537 -0.021
    183 Burkina Faso 0.423 0.628 0.286 0.446 0.424 -0.022
    178 Iemen 0.380 0.695 0.350 0.475 0.452 -0.023
    167 Sudan 0.562 0.688 0.329 0.526 0.503 -0.023
    172 Djibouti 0.532 0.655 0.309 0.499 0.476 -0.023
    173 Etiòpia 0.430 0.706 0.326 0.487 0.463 -0.024
    181 Libèria 0.287 0.662 0.434 0.461 0.435 -0.026
    179 Eritrea 0.432 0.700 0.283 0.472 0.441 -0.031
    189 Níger 0.333 0.622 0.217 0.391 0.356 -0.035

    13.4 Els tres procediments junts

    El resum de tot aquest apartat el trobem en el següent codi, que serveix per generar la Taula 13.14. El codi mostra com calculem l’IDH a partir de les variables originals del marc de dades hdi. Observeu com amb poques línies de codi podem normalitzar, ponderar i agregar les dades inicials per generar el nou marc de dades de l’IDH, que hem anomenat hdi17:

    1. Normalitzem les variables GNI, E1, E2 i LE.
    2. A la normalització de l’educació aprofitem per agregar les variables E1 i E2 a la dimensió ED, de manera que ens quedem amb les tres dimensions: GNI, ED i LE.
    3. Agreguem els indicadors GNI, ED i LE amb mitjana geomètrica per crear la variable IDH2.
    4. Guardem els resultats com l’objecte hdi17, ja que els resultats corresponen a l’any 2017, i en demanem les primeres 10 files.
    hdi17 <- hdi %>%
      mutate(GNI = if_else(GNI > 75000, 1, round((log(GNI) - log(100)) / (log(75000) - log(100)), 3)), #normalitzem el GNI
             ED = round((if_else(E1 > 18, 1, E1 / 18) + #normalitzem i agreguem/ponderem ED (suma E1 i E2)
                  if_else(E2 > 15, 1, E2 / 15)) / 2, 3),   
             LE = round((LE - 20) / (85 - 20), 3), #normalitzem LE
             IDH2 = round((GNI * ED * LE)^(1/3), 3)) %>% #agregació
      select(P, country, IDH, GNI, LE, ED, IDH) #seleccionem les columnes que volem mostrar
    
    head(hdi17, 10) #demanem les primeres 10 files
    Taula 13.14: Índex de Desenvolupament Humà 2018
    P country IDH GNI LE ED
    1 Noruega 0.953 0.985 0.958 0.917
    2 Suïssa 0.944 0.960 0.977 0.897
    3 Austràlia 0.939 0.918 0.971 0.930
    4 Irlanda 0.938 0.950 0.948 0.917
    5 Alemanya 0.936 0.927 0.942 0.942
    6 Islàndia 0.935 0.926 0.968 0.913
    7 Hong Kong (RAE Xina) 0.933 0.962 0.986 0.853
    8 Suècia 0.933 0.932 0.963 0.902
    9 Singapur 0.932 1.000 0.972 0.833
    10 Països Baixos 0.931 0.932 0.954 0.907

    Es pot ponderar variables i demanar a l’hora la mitjana geomètrica, encara que requereix una fórmula més sofisticada. La mitjana geomètrica ponderada (MGP) és la suma del logaritme neperià de cada variable (\(V\)) multiplicat per la seva ponderació (\(P\)). Al resultat, es calcula l’exponencial (\(\exp\)) i es divideix per la suma de les ponderacions (\(\sum(Pn)\)):

    \[MGP = \frac{\exp(\sum(log(V_1) * P_1 + log(V_2) * P_2 + ... log(V_n) * P_n))}{\sum(Pn)}\] La fórmula pot semblar complicada, però aplicar-la a R no és difícil, en especial si ja tenim les variables normalitzades com és el cas del marc de dades hdi17. Imaginem-nos que volem calcular la mitjana geomètrica ponderada de la següent manera:

    • Donarem un 20% d’importància als ingressos (GNI).
    • Donarem un 50% d’importància a l’educació (ED).
    • Donarem un 30% d’importància a l’esperança de vida (LE).
    • També hi hem d’afegir la funció round() per afegir tres decimals al resultat.
    hdi17 %>%
      mutate(IDH_MGP = round(exp(log(GNI)*0.2 + log(ED)*0.5 + log(LE)*0.3) / 1, 3))

    Tingueu en compte que en el divisor (\(\sum(Pn)\)) hi haurà de figurar la suma de les ponderacions. En el nostre exemple és 1, ja que 0.2 + 0.5 + 0.3 = 1.