13 Construir un índex

En les seccions anteriors hem descobert que l’IDH es construeix a partir de tres dimensions. Ja podem intuir que uns valors alts en ingressos, educació i salut porten a un IDH alt i que uns valors baixos en ingressos, educació i salut porten a un IDH baix. Encara, però, desconeixem la manera com aquestes xifres es transformen en els valors finals de l’índex. Per poder fer la corresponent transformació i convertir els quatre indicadors en una única mesura, ens caldrà seguir els tres procediments principals de construcció d’un índex compost:

Normalització
Agregació
Ponderació

En aquest apartat els paquets que utilitzarem són els mateixos que en l’apartat anterior:

library(dplyr)
library(tidyr)
library(ggplot2)
library(countrycode)
library(readxl)
library(janitor)

13.1 Normalització

Sempre ens diuen que no podem barrejar peres i pomes. Aquesta és una expressió que s’utilitza per il·lustrar que no es poden comparar coses diferents. Les peres es poden comparar només amb peres i les pomes només amb pomes.

El mateix passa amb els indicadors. Barrejar variables que representen unitats diferents ens porta a problemes de comparabilitat. Vegem-ne un exemple a la Taula 13.1, on hem sumat els diferents indicadors que conformen l’IDH en una variable que hem anomenat IDH_sum. La Suma és una de les maneres de combinar variables que hem vist en un apartat anterior. IDH_sum és la suma dels valors GNI + E1 + E2 + LE per a cada país. Segons aquest procediment, el país amb millor IDH (sota els paràmetres de la variable IDH_sum) seria Qatar malgrat tenir xifres més aviat discretes en educació. Brunei i Kuwait tampoc tenen ni una educació ni una esperança de vida alta, però ocuparien els primers llocs de la taula. Això es deu a que els valors del GNI són molt elevats en comparació a l’educació o l’esperança de vida. El GNI està mesurat en dòlars i la majoria de països es mouen entre varis milers. En canvi, l’educació es mou en xifres inferiors als 20 anys d’escolarització i l’esperança de vida es mou entre intervals de vàries desenes. Acabem de barrejar peres i pomes. Això fa que el pes del GNI sigui desproporcionat en relació als altres indicadors pel simple fet d’estar mesurat amb unitats més grans.

Taula 13.1: IDH segons la suma dels seus components
P	country	IDH	GNI	E1	E2	LE	IDH_sum
1	Qatar	0.856	116818	13.4	9.8	78.3	116919.5
2	Liechtenstein	0.916	97336	14.7	12.5	80.4	97443.6
3	Singapur	0.932	82503	16.2	11.5	83.2	82613.9
4	Brunei	0.853	76427	14.5	9.1	77.4	76528.0
5	Kuwait	0.803	70524	13.6	7.3	74.8	70619.7

És evident que l’IDH no està construït amb una simple suma dels seus components. Tampoc les altres maneres de combinar indicadors que hem après fins ara ens donarien resultats satisfactoris. L’exemple de la Taula 13.2 és encara més clar. Aràbia Saudita i Islàndia són dos països amb un nivell d’ingressos per càpita molt semblant. Els habitants de les dues poblacions guanyen més o menys el mateix de mitjana. En canvi, en educació i salut Islàndia té unes xifres bastant més elevades en termes relatius que Aràbia Saudita. Els islandesos han tingut més anys de formació i han viscut vuit anys més que els saudites. Això es reflecteix en què Islàndia ocupa el sisè lloc en el rànquing de 2017 si ordenem els resultats per l’IDH (columna IDH), mentre que Aràbia Saudí ocupa el lloc 40. Si utilitzéssim una simple suma, com veiem a IDH_sum, Aràbia Saudita estaria classificada millor que Islàndia.

Taula 13.2: Comparació entre Islàndia i Aràbia Saudita
P	country	IDH	GNI	E1	E2	LE	IDH_sum
6	Islàndia	0.935	45810	19.3	12.4	82.9	45924.6
40	Aràbia Saudita	0.853	49680	16.9	9.5	74.7	49781.1

Les xifres mesurades en unitats grans tenen molta més força en el total de l’índex que no pas les xifres mesurades en unitats més petites. Per evitar que això passi, haurem de normalitzar els indicadors i fer que les variables es moguin en paràmetres semblants. La normalització converteix variables de paràmetres diferents en mesures d’escala semblant per fer-les comparables entre elles i poder-les agregar en un índex final. Principalment existeixen tres mètodes de normalització:

MinMax
ZScores
Escala

13.1.1 MinMax

L’IDH utilitza el mètode MinMax, que consisteix a convertir els paràmetres de la distribució en una escala de 0 a 1 assignant un valor mínim i un valor màxim. Aquesta és la fórmula mitjançant la qual s’obtenen els valors a través del mètode MinMax:

\[MinMax = \frac{valor - valor.minim}{valor.maxim - valor.minim}\] Intentem ara aplicar el mètode MinMax a l’esperança de vida (columna LE) de la manera com ha fet el PNUD en les seves notes tècniques. A la pàgina 2 es justifica una normalització teòrica dels valors, pels quals s’estableix 85 com a valor màxim de la distribució i 20 com a valor mínim. Apliquem el mètode MinMax segons aquesta informació:

\[MinMax(LE) = \frac{valor(LE) - 20}{85 - 20}\]

Exercici 13.1 (Normalitzar l’esperança de vida) Examina les notes tècniques de l’IDH i respon:

Com es justifica el màxim d’esperança de vida de 85? I el mínim de 20?
Què passaria si un país superés la mitjana de 85 anys d’esperança de vida?

Ara podem aplicar aquesta fórmula a tots els països de la base de dades, de manera que si un país s’acosta al màxim de 85 tindrà un valor proper a 1 mentre que si un país s’acosta al mínim de 20 tindrà un valor proper a 0. En la següent Taula 13.3 hem aplicat la fórmula a uns quants països de la mostra. El Japó té un valor proper a 1 perquè té una esperança de vida de 83.9, molt a prop del màxim que és 85. Per contra, Sierra Leone té una esperança de vida de 52.2 i rep un índex de 0.495.

Taula 13.3: Esperança de vida en alguns països
country	LE	MinMax_LE
Japó	83.9	0.983
Estats Units	79.5	0.915
Argentina	76.7	0.872
Congo - Kinshasa	60.0	0.615
Sierra Leone	52.2	0.495

Amb el mínim i el màxim que el PNUD estableix per a cada indicador, ja podem normalitzar-los aplicant a cadascun d’ells la fórmula que els correspon. En el cas del GNI, el valor màxim són 75.000 dòlars i el valor mínim 100 dòlars. Per tant, si un país és molt pobre i de mitjana els seus habitants guanyen 100 dòlars l’any li assignarem un valor 0 i si un país és molt ric i de mitjana els seus habitants guanyen 75.000 dòlars l’any li assignarem un valor 1. La resta de països oscil·laran entre 0 a 1 en funció d’aquests valors mínim i màxim. El càlcul del GNI es fa mitjançant el logaritme neperià], de manera que els increments de renda en valors baixos són més sensibles a l’índex que no pas els increments de renda en valors alts. En la dimensió d’educació hem de tenir present que hi ha dues variables: la mitjana d’anys d’escolarització i l’escolarització esperada.

La Taula 13.4 representa el resultat d’aplicar el codi que trobem a continuació a l’objecte hdi_t. Hem replicat els països seleccionats a la taula anterior i hem aplicat el mètode MinMax a tots quatre indicadors. Podeu observar també que hem mantingut una columna amb l’IDH original (columna IDH) i hem creat el nostre propi IDH (li diem IDH2) a partir de la mitjana dels indicadors normalitzats ¹. Hauríem d’esperar que els valors de la columna IDH coincideixin amb la columna IDH2 que hem creat nosaltres (avís: veureu que no coincideixen). Per ser fidels al sistema IDH, també hem arrodonit les xifres resultants a tres decimals amb la funció round().

¹ Obtenim la mitjana sumant el valor de cada indicador i dividint el resultat per quatre, que equival al nombre de casos

hdi_t <- hdi %>%
  mutate(GNI_MM = if_else(GNI > 75000, 1, round((log(GNI) - log(100)) / (log(75000) - log(100)), 3)),
         E1_MM = if_else(E1 > 18, 1, round(((E1 - 0) / (18 - 0)), 3)),
         E2_MM = if_else(E2 > 15, 1, round((E2 - 0) / (15 - 0), 3)),
         LE_MM = round((LE - 20) / (85 - 20), 3),
         IDH2 = round((GNI_MM + E1_MM + E2_MM + LE_MM) / 4, 3))
hdi_t %>%
  select(country, GNI_MM, E1_MM, E2_MM, LE_MM, IDH2, IDH) %>%
  filter(country %in% c("Estats Units", "Argentina", "Congo - Kinshasa", "Japó", "Sierra Leone")) %>%
  arrange(desc(IDH2))

Taula 13.4: Esperança de vida i esperança de vida normalitzada amb MinMax
country	GNI_MM	E1_MM	E2_MM	LE_MM	IDH2	IDH
Estats Units	0.953	0.917	0.893	0.915	0.919	0.924
Japó	0.901	0.844	0.853	0.983	0.895	0.909
Argentina	0.788	0.967	0.660	0.872	0.822	0.825
Congo - Kinshasa	0.313	0.544	0.453	0.615	0.481	0.457
Sierra Leone	0.380	0.544	0.233	0.495	0.413	0.419

Les columnes GNI_MM, E1_MM, E2_MM i LE_MM ens mostren els indicadors normalitzats de cada un dels països de la nostra selecció. La normalització permet convertir magnituds diferents en paràmetres que es mouen en la mateixa escala. Amb el mètode MinMax els indicadors es mouen en escala de 0 a 1, de manera que ens resulta més fàcil comparar-los entre ells i barrejar peres i pomes. A la columna IDH2 es mostra la mitjana dels quatre indicadors². Si la comparem amb l’IDH real (columna IDH), veiem que els valors són semblants entre columnes però no coincideixen exactament. Això vol dir que encara ens falta algun procediment més per fer. En concret, encara hem de veure com es ponderen i s’agreguen les variables de l’índex.

² També tindria sentit ser una suma, com veníem mostrant en els darrers exemples, ja que tant la mitjana com la suma tenen el mateix efecte aritmètic sobre l’agrupació de les variables.

Exercici 13.2 (Canviar mínims i màxims) Observa atentament el codi que hem generat per crear l’objecte hdi_t. Veuràs que dins de la funció mutate() hem establert les normalitzacions per a cada indicador:

Canvia el GNI_MM a un mínim de 250 i un màxim de 100000.
Canvia LE_MM a un mínim de 35 i un màxim de 90.
Observa els resultats per als mateixos països. Com han canviat els valors?

Abans de continuar els passos de construcció d’un índex amb els mètodes de ponderació i agregació, veurem altres maneres d’establir els valors mínim i màxim amb el mètode MinMax i també veurem altres mètodes de normalització diferents al MinMax. Fins ara us hem explicat que el PNUD ha utilitzat una normalització teòrica. Quan normalitzem teòricament, estem utilitzant alguna raó concreta basada en supòsits teòrics per justificar els valors mínims i màxims dels indicadors. Establim que un número concret serà el mínim i un altre número serà el valor màxim i els hi assignem els valors 0 i 1.

L’altra opció que tenim és la normalització empírica. Quan normalitzem empíricament, agafem el mínim i el màxim dels valors que tenim a la nostra distribució per normalitzar. No establim cap valor a priori, sinó que simplement prenem com a referència el valor màxim i el mínim de les nostres dades i els hi assignem els valors 0 i 1. La resta de valors es mouran entre aquests intervals.

En la següent Taula 13.5 hem normalitzat empíricament els quatre indicadors de l’IDH i hem seleccionat els països que tenen el valor màxim i el valor mínim de cada indicador, així com també els que tenen el valor màxim i el valor mínim en l’IDH2t que anteriorment hem normalitzat teòricament i l’IDHe que acabem de normalitzar empíricament.

Taula 13.5: Normalització empírica de l’IDH
country	GNI_MMe	E1_MMe	E2_MMe	LE_MMe	IDH2t	IDH2e
Austràlia	0.809	1.000	0.905	0.969	0.937	0.921
Noruega	0.895	0.722	0.881	0.944	0.944	0.861
Alemanya	0.820	0.672	1.000	0.909	0.938	0.850
Hong Kong (RAE Xina)	0.866	0.633	0.833	1.000	0.913	0.833
Qatar	1.000	0.472	0.659	0.818	0.824	0.737
Burkina Faso	0.176	0.200	0.000	0.270	0.406	0.162
Sierra Leone	0.121	0.272	0.159	0.000	0.413	0.138
Sudan del Sud	0.072	0.000	0.262	0.160	0.377	0.124
Níger	0.060	0.028	0.040	0.257	0.347	0.096
República Centreafricana	0.000	0.128	0.222	0.022	0.370	0.093

Exercici 13.3 (Diferències entre normalització teòrica i empírica) Fixa’t amb la Taula 13.5 i compara els resultats amb les taules que hem vist anteriorment. Respon a la següent pregunta:

Per què Qatar té assignat el valor 1 a la columna GNI_MMe? Per què la República Centre Africana té assignat el valor 0?

En codi d’R, per establir un mètode MinMax empíric seria el següent: (x - min(x)) / (max(x) - min(x)). Aquesta funció localitza el valor mínim i el valor màxim de la distribució, de manera que tots els valors oscil·laran entre aquests dos extrems. Per exemple, si el valor màxim fos 50 i el mínim 10, el valor 25 es normalitzaria de la següent manera: (25 - 10) / (50 - 10) = 15 / 40 = 0.375. Per a un MinMax teòric, s’han de substituir els màxims i els mínims pels valors que vulguem.

13.1.2 ZScores

El mètode ZScores té una lògica diferent al MinMax, ja que els punts de referència clau per construir l’indicador no són el valor màxim i el valor mínim, sinó la mitjana i la desviació típica de la distribució³. Aquest mètode de normalització estableix com a valor 0 la mitjana de la nostra mostra, mente que tots els casos varien en funció de la seva posició respecte la mitjana, tenint en compte la desviació típica.

³ Aquest mètode de normalització és probablement el més complet de tots els existents però té dos problemes principals. El primer és que els resultats són menys intuitius i poden costar més d’interpretar per a un públic menys especialitzat. A simple vista pot ser molt més fàcil observar uns resultats que oscil·len entre 1 i 0 que no pas amb positius i negatius com fa Z-Scores. El segon problema és que ZScores utilitza nombres negatius, cosa que complica realitzar algunes operacions com les agregacions geomètriques.

\[ZScores = \frac{valor - mitjana}{desviacio.tipica}\]

Fixem-nos amb la fórmula de ZScores. A la part del numerador estem restant la mitjana al valor d’un país determinat. Això farà que en la normalització final els valors que estiguin per sobre de la mitjana de la distribució tinguin signe positiu mentre que els valors que estiguin per sota de la mitjana tinguin signe negatiu. Si algún nombre coincideix amb la mitjana, aquest tindrà valor 0.

Exercici 13.4 (Prova amb Z-Scores) Per veure com funciona el numerador de ZScores crearem el vector ex1 amb el codi: ex1 <- sample(10, replace = TRUE). Aquest codi genera una distribució aleatòria de valors compresos entre 1 i 10.

Un cop hagueu creat el vector, en primer lloc visualitzeu-lo teclejant ex1 i observeu quina és la mitjana amb mean(ex1).
A continuació, apliqueu-li la fórmula ex1 - mean(ex1), que restarà cada valor d’ex1 per la mitjana de la distribució. Compara els valors d’ex1 amb els de la fórmula i digues quins tenen signe negatiu i quins el tenen positiu. Treu-ne les conclusions pertinents.

El següent pas per normalitzar amb ZScores serà dividir cada valor per la desviació típica de la distribució. La desviació típica ens diu com de dispersos estan els valors respecte la mitjana segons les unitats amb què estan mesurats els valors de la distribució. És a dir, ZScores divideix el numerador per un denominador petit (la desviació típica) si els valors de la distribució estan molt a prop de la mitjana o tenen valors petits, mentre que dividirà el numerador per un denominador més gran si els valors de la distribució estan més allunyats de la mitjana o tenen valors més grans.

Exercici 13.5 (Comprendre la desviació típica) En aquest exercici hem creat dues distribucions, displ i closel, que tenen el mateix rang: el valor més petit és 1 i el més gran és 20.

Apliqueu la funció mean() i observareu com les dues distribucions tenen la mateixa mitjana. Sabríeu dir quina és?

displ <- c(1,2,3,10,15,19,20)
closel <- c(1,7,9,10,11,12,20)

Fixeu-vos, però, que una distribució té valors més propers a la mitjana que l’altra. Això ho veureu més clarament si apliqueu la funció plot() com es mostra en el codi següent (haureu de seleccionar a la vegada la línia de codi de plot i la de points per visualitzar-ho correctament).

plot(displ, closel)
points(mean(displ), mean(closel), col = "red")

Aquesta diferència de distàncies amb la mitjana es tradueix amb una desviació típica diferent: la distribució amb els nombres més allunyats tindrà una desviació típica més alta i la distribució amb els nombres més propers tindrà una desviació típica més baixa.
Proveu de completar la normalització de displ i closel amb ZScores, com indiquem a continuació. Sabríeu interpretar per què els valors extrems (1 i 20) queden més reduïts a displ que a closel?

(displ - mean(displ))/sd(displ) 
(closel - mean(closel))/sd(closel)

Creeu ara els objectes displb i closeb on multipliqueu per 10 cada valor de l’objecte anterior i repetiu tot el procediment de l’exercici. Sabríeu interpretar els resultats?

displb <- displ * 10
closelb <- closel * 10

En el codi següent hem aplicat la normalització dels indicadors de l’IDH amb ZScores (x - mean(x)) /sd(x)) per crear el marc de dades hdi_ZS. A la següent Taula 13.6 observem els països que tenen els valors més extrems de cada indicador, així com el país que té l’IDH més proper a la mitjana.

hdi_ZS <- hdi_t %>%
  mutate(GNI_ZS = round((log(GNI) - mean(log(GNI))) /sd(log(GNI)), 3),
         E1_ZS = round((E1 - mean(E1)) / (sd(E1)), 3),
         E2_ZS = round((E2 - mean(E2)) / (sd(E2)), 3),
         LE_ZS = round((LE - mean(LE)) / (sd(LE)), 3),
         IDHZS = round((GNI_ZS + E1_ZS + E2_ZS + LE_ZS) / 4, 3)) %>%
  select(country, GNI_ZS, E1_ZS, E2_ZS, LE_ZS, IDHZS)

Taula 13.6: Països amb indicadors més extrems amb ZScores
country	GNI_ZS	E1_ZS	E2_ZS	LE_ZS	IDHZS
Austràlia	1.238	3.283	1.403	1.433	1.839
Alemanya	1.286	1.275	1.790	1.184	1.384
Hong Kong (RAE Xina)	1.483	1.036	1.113	1.564	1.299
Qatar	2.059	0.049	0.403	0.804	0.829
Belize	-0.263	-0.155	0.629	-0.204	0.002
Burkina Faso	-1.485	-1.619	-2.276	-1.487	-1.717
Sierra Leone	-1.723	-1.177	-1.630	-2.614	-1.786
Sudan del Sud	-1.934	-2.845	-1.211	-1.946	-1.984
República Centreafricana	-2.244	-2.062	-1.372	-2.522	-2.050
Níger	-1.984	-2.674	-2.115	-1.540	-2.078

Exercici 13.6 (Màxims i mínims amb ZScores) Identifica quina és la mitjana de cada columna amb summary(hdi_ZS) (el resultat hauria de ser obvi). Fixa’t amb la Taula 13.6 i identifica:

El país que es troba més proper a la mitjana en cada indicador.
Els països que es troben per sobre de la mitjana en cada indicador.
Els països que es troben per sota de la mitjana en cada indicador.
Els països que tenen un valor màxim i un valor mínim a cada indicador.
El país que es troba més allunyat de la mitjana.

Fixeu-vos que la normalització amb Z-Scores només pot ser empírica ja que els dos punts de la distribució que necessitem per normalitzar (la mitjana i la desviació típica) venen marcats per les dades, no per la teoria. Això vol dir que no triem com normalitzar a partir de cap raonament conceptual o teòric, sinó que ho fem a partir de la substància empírica que tenim disponible.

13.1.3 Escala

El mètode Escala consisteix a ordenar els valors de la distribució en un rànquing. El valor més alt se li assignarà el valor 1 mentre que el valor més baix se li assignarà el valor 0. La resta de valors variaran entre 1 i 0 i es normalitzaran en funció de la posició que ocupen en el rànquing. A diferència del MinMax, el mètode Escala no té en compte la distància d’un determinat valor respecte el valor màxim i el valor mínim, sinó que només té en compte quina és la posició que ocupa cada valor en la distribució ordenada. Així, en una distribució amb 5 casos, el valor més alt rebria el valor 1, el segon més alt valor 0.75, el tercer 0.50, el quart 0.25 i el valor més baix 0. Tots els valors normalitzats tenen la mateixa distància entre sí independentment de com de prop o de lluny estiguessin els valors en la distribució original. El mètode Escala divideix l’interval entre 0 i 1 amb tantes parts com observacions tinguem a la nostra distribució i assigna a cada observació un lloc en funció de la seva posició en el rànquing. Això vol dir que una observació tindrà la mateixa distància amb la observació de davant i l’observació de darrere.

\[Escala = \frac{lloc.ranking}{num.paisos}\]

Traslladat a codi R, la manera per normalitzar segons el mètode d’Escala és percent_rank(). També existeixen funcions que apliquen algunes variants. Podeu consultar-les amb ?ranking.

Exercici 13.7 (Normalització amb Escala) Normalitza les distribucions dels següents codis aplicant el mètode Escala amb percent_rank() (exemple: percent_rank(one)):

Com es normalitza quan tenim 11 valors? I quan en tenim dos?
Quin és el problema lògic que sorgeix quan tenim varis valors iguals en una mateixa variable? Com ho resol R per defecte?
Observa la normalització en els objectes four i five. El canvi de magnitud d’un dels valors altera la normalització en Escala? Ho faria en la normalització en MinMax? Fes la prova amb els dos mètodes.

one <- c(0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100)
two <- c(0, 1, 2, 3, 5, 5, 5, 7, 8, 9, 10)
three <- c(1, 2)
four <- c(1, 2, 3, 4, 5, 6)
five <- c(1, 2, 3, 4, 5, 60000)

En el següent codi hem normalitzat els valors originals de l’IDH amb el mètode Escala i hem creat l’objecte hdi_ES. A continuació, hem generat la Taula 13.7 amb les primeres 10 observacions del marc de dades. Fixeu-vos com el país amb els valors més alts de cada columna té assignat el valor 1, el segon el valor 0.995, el tercer el valor 0.989, el quart el valor 0.984, i així successivament. Això significa que, en aquest cas, l’interval que separa cada una de les posicions del rànquing és d’entre 0.005 i 0.006.

hdi_ES <- hdi_t %>%
  mutate(GNI_ES = round((percent_rank(log(GNI))), 3),
         E1_ES = round((percent_rank(E1)), 3),
         E2_ES = round((percent_rank(E2)), 3),
         LE_ES = round((percent_rank(LE)), 3),
         IDHES = round((GNI_ES + E1_ES + E2_ES + LE_ES) / 4, 3)) %>%
  select(P, country, GNI_ES, E1_ES, E2_ES, LE_ES, IDHES) %>%
  arrange(desc(IDHES)) %>%
  mutate(P = 1:n(),
         IDHES = round((percent_rank(IDHES)), 3))

Taula 13.7: Primeres observacions de l’IDH segons normalització amb Escala
P	country	GNI_ES	E1_ES	E2_ES	LE_ES	IDHES
1	Austràlia	0.894	1.000	0.963	0.968	1.000
2	Noruega	0.973	0.957	0.926	0.931	0.995
3	Suïssa	0.952	0.846	0.989	0.989	0.989
4	Islàndia	0.904	0.984	0.888	0.963	0.984
5	Irlanda	0.941	0.989	0.904	0.894	0.979
6	Suècia	0.920	0.947	0.888	0.947	0.973
7	Alemanya	0.910	0.920	1.000	0.867	0.968
8	Dinamarca	0.931	0.979	0.926	0.851	0.963
9	Canadà	0.888	0.872	0.984	0.941	0.957
10	Països Baixos	0.926	0.968	0.862	0.915	0.952

Exercici 13.8 (El Top 10 del rànking amb Escala) Observa atentament la Taula 13.7 i respon a les següents preguntes:

Quin valor normalitzat rep el país més ben classificat? I el segon? Fes una llista dels quatre primers valors que reben els països més ben classificats.
Quin és exactament l’interval que separa cada observació en el rànquing d’Escala? Ho pots calcular amb una simple resta.

Per últim, comprovarem com canvia d’índex segons els diferents mètodes de normalització que hem après. En la Taula 13.8 podem observar la posició que ocupen els països amb un IDH més elevat segons els diferents mètodes de normalització que hem vist (MinMax teòric, MinMax empíric, ZScores i Escala). Veiem que Noruega ocuparia el primer lloc si normalitzéssim segons els procediments de PNUD (que utilitza MinMax i decideix els mínims i els màxims de forma teòrica), mentre que ocuparia entre el segon i el quart lloc segons els altres mètodes de normalització. Austràlia, en canvi, tercera en la columna IDH2t, ocuparia el primer lloc en les altres.

Taula 13.8: Lloc del rànquing de l’IDH segons els tres tipus de normalització
country	IDH2t	IDH2e	IDHZS	IDHES
Noruega	1	4	4	2
Alemanya	2	7	7	7
Austràlia	3	1	1	1
Irlanda	4	2	2	5
Suïssa	5	5	8	3
Islàndia	6	3	3	4
Dinamarca	7	6	5	8
Països Baixos	8	11	11	10
Suècia	9	9	10	6
Regne Unit	10	15	12	11

Aquesta darrera taula ens ajuda a reflexionar sobre la conclusió més important d’aquest apartat: la posició que ocupen cada una de les observacions ordenades en un rànquing és sensible al mètode de normalització que escollim. Normalitzar és un pas necessari en la construcció d’un índex però que també distorsiona el valor que rebrà cada observació. És important, doncs, que justifiquem molt bé els motius pels quals triem un mètode de normalització i no un altre.⁴

⁴ Alguns dels motius podrien ser que MinMax o ZScores faciliten la comparabilitat entre anys, que ZScores suporta millor la presència de valors extrems o que MinMax i Escala no treballen amb nombres negatius, pel qual seran preferibles si tenim la necessitat de logar alguna de les variables o que volem utilitzar l’agregació geomètrica (algunes d’aquestes discussions estan breument recollides a (OECD, 2008: 83-88)).

13.2 Ponderació

Un cop hem vist totes les tècniques diferents de normalització, hem de passar al proper pas que és la ponderació. Anteriorment ja hem comprovat que amb la normalització no en tenim suficient per saber com el PNUD ha calculat l’IDH. Això pot ser degut a que no totes les variables tenen el mateix pes en la confecció de l’índex. Quan ponderem, assignem pesos diferents als indicadors que conformen l’índex. Fins ara hem considerat que les quatre variables tenien la mateixa importància, de manera que cada indicador valia un 25% en el càlcul de l’índex final. Alternativament, podem considerar que alguns indicadors són més importants que d’altres i per això han de tenir més pes. A l’hora de decidir quina ponderació apliquem als indicadors acostumem a utilitzar dos criteris:

Ponderació teòrica: Lligat a la conceptualització, ja que segons com haguem definit l’objecte en qüestió podem pensar que hi ha parts que valen més que altres.
Ponderació empírica: Lligat al significat empíric de les dades de què disposem.

13.2.1 Ponderació teòrica

La ponderació teòrica dels indicadors es fonamenta a partir de la conceptualització que hem fet d’allò que estem mesurant. En la conceptualització de l’IDH, per exemple, s’argumenta que el desenvolupament humà està format per tres dimensions principals: l’educació, els ingressos i la salut. A més, també diu que no hi ha cap part que sigui més important que l’altra. Això significa que a l’hora d’establir pesos, cada dimensió valdrà el mateix.

L’IDH està ponderat sota fonaments teòrics. Si repassem algunes de les teoritzacions principals sobre el desenvolupament humà, hi trobarem pàgines i pàgines a justificar, en primer lloc, què entenen per desenvolupament humà, i en segon lloc, quines poden ser unes bones mesures del desenvolupament humà (Haq, 1999; Sen, 1981; UNDP, 1990). En la seva teoria de les capacitats, Sen explicava que les persones no només han de tenir capacitat econòmica, sinó també han de tenir la capacitat de transformar recursos en activitats valuoses (això ens ho pot facilitar l’educació) i així com la capacitat de fer coses amb el seu temps lliure (per tant hauran de gaudir de bona salut).

Així doncs, l’IDH hauria de constar de tres dimensions que a priori haurien de tenir el mateix pes entre elles: ingressos, educació i salut. Per tant, haurem de ponderar els quatre indicadors que tenim per tal que tinguem tres dimensions amb el mateix pes cada una. Fins ara hem fet una simple suma i com que teníem quatre indicadors, que cada indicador representava un 25% del valor total de l’IDH. Com que resulta que cada dimensió representa un terç de l’índex, la ponderació teòrica hauria de ser de la següent manera:

Ingressos: La dimensió valdrà un terç de l’índex i estarà formada per l’indicador GNI per càpita.
Educació: La dimensió valdrà un terç de l’índex i estarà formada pels indicadors educació esperada i educació mitjana. Per tant, cada un d’aquests indicadors valdrà una sisena part de l’índex final.
Sanitat: La dimensió valdrà un terç de l’índex i estarà formada per la variable esperança de vida.

	Ingressos	Educació	Salut
	GNI	Ed. esperada — Ed. mitjana	Esperança vida
Sense ponderació	25%	25 % —— 25 %	25 %
Amb ponderació	33.3%	16.6 % —— 16.6 %	33.3 %

Amb aquesta informació, ja podem ponderar les variables de l’IDH per tal que totes les dimensions comptin un terç sobre l’índex final. Si ens ho mirem des de la perspectiva de les variables, la variable que conforma la dimensió d’ingressos comptarà un terç sobre l’índex final, les dues variables d’educació comptaran una sisena part de l’índex final i la variable que conforma la dimensió de sanitat comptarà un terç sobre l’índex final. A la següent Taula 13.9 en veiem el resultat, on observem els cinc països millor puntuats i els cinc pitjor puntuats. Hem creat la columna E_MM, que és la mitjana de les dues variables d’educació ((E1_MM+E2_MM)/2). La columna IDHp ens mostra la ponderació que hem aplicat mentre que la columna IDH ens mostra l’IDH tal com està calculat pel PNUD (avís: veureu que no coincideixen).

Taula 13.9: IDH amb MinMax i ponderació teòrica
P	country	GNI_MM	E_MM	LE_MM	IDHp	IDH
1	Noruega	0.985	0.917	0.958	0.953	0.953
2	Suïssa	0.960	0.897	0.977	0.945	0.944
3	Austràlia	0.918	0.930	0.971	0.940	0.939
4	Irlanda	0.950	0.916	0.948	0.938	0.938
5	Alemanya	0.927	0.942	0.942	0.937	0.936
184	Sierra Leone	0.380	0.388	0.495	0.421	0.419
185	Burundi	0.294	0.425	0.583	0.434	0.417
186	Txad	0.432	0.298	0.511	0.414	0.404
187	Sudan del Sud	0.342	0.296	0.574	0.404	0.388
188	República Centreafricana	0.286	0.344	0.506	0.379	0.367
189	Níger	0.333	0.216	0.622	0.390	0.354

Com veieu, després de normalitzar els indicadors de l’IDH i ponderar-los amb els mètodes apropiats, encara no hem aconseguit replicar els valors finals de l’índex. Això es deu a que l’IDH té algun altre mecanisme pel qual penalitza els valors baixos. Aquest efecte es nota menys en els països millor classificats a la taula, ja que tenen valors molt semblants en les tres dimensions. En canvi, és més freqüent trobar valors dispars entre els països classificats a la part mitja i baixa del rànquing de l’IDH. Aquests són els més penalitzats en l’índex final. Quan estudiem l’últim pas, l’agregació, veurem quin és aquest mecanisme de penalització i per què s’aplica així.

13.2.2 Ponderació empírica

La ponderació teòrica que hem vist fins ara va de la teoria a les dades: fem un raonament teòric i pensem què té sentit des d’un punt de vista conceptual, establim les dimensions del concepte i ho traslladem a les dades com ho hem fet en l’apartat anterior. La ponderació empírica, en canvi, obvia l’exercici teòric i es mou només en el terreny de les dades. En altres paraules, deixa que les dades parlin i ens diguin què té sentit des del punt de vista empíric.

La ponderació empírica requereix normalment utilitzar alguns procediments estadístics més sofisticats, que s’escapen de l’objectiu d’aquesta obra. Per tant, no els entrarem a analitzar amb molt de detall. La idea clau d’aquest tipus de ponderació està associada amb el significat empíric dels seus indicadors: dues variables tenen el mateix significat empíric quan els valors d’una variable varien exactament igual que els valors de l’altra. Sota aquest punt de vista, sembla raonable que, si ens estan dient exactament el mateix, no tingui massa sentit que formin part de dimensions diferents.

Exemple: L’índex FIIEI

Imaginem-nos que estem creant un “índex d’aprofitament de l’assignatura de Fonts d’Informació i Indicadors per a Estudis Internacionals” i seleccionem tres indicadors: nota obtinguda a l’assignatura, hores dedicades i consultes fetes al fòrum. Podem pensar que com més elevada sigui la nota obtinguda, més hores s’hi hagin dedicat i més consultes fetes al fòrum, més s’haurà aprofitat l’assignatura per part de l’estudiant i més alt serà l’índex. Quan mirem les dades de cada estudiant, resulta que trobem una relació perfecta entre nota obtinguda i hores dedicades: aquells estudiants que han dedicat 10 hores han tret un 10, els que han dedicat 9 hores han tret un 9, etc. Això deu voler dir que empíricament els dos indicadors ens estan dient el mateix: ens indiquen amb la mateixa exactitud una dimensió del concepte. Aquesta dimensió subjacent podria ser, per exemple, l’esforç.

En canvi, és possible que les consultes fetes al fòrum tinguin una correlació més dèbil amb la primera dimensió. Suposem que l’estudiant que millor nota ha tret ha fet 5 consultes al fòrum, mentre altres estudiants han fet les mateixes consultes i han tret menys nota. És evident que la participació en l’assignatura és un aspecte important de l’“aprofitament” de la mateixa. Però també és evident que les dades ens diuen que no estem mesurant el mateix fenomen. Podem considerar, doncs, que tenim dimensions empíriques diferents i que no han de tenir el mateix pes en l’índex final.

La manera com atribuïm els pesos pot variar segons el criteri que utilitzem. Per exemple, podem considerar que els dos primers indicadors formaran part d’una mateixa dimensió, que comptarà la meitat de l’índex. L’altre indicador formarà part d’una dimensió diferent i serà l’altra meitat del valor de l’índex.

L’IDH no utilitza la ponderació empírica i els procediments per ponderar empíricament s’escapen dels objectius d’aquesta obra. Si en voleu saber més, podeu consultar tècniques com l’Anàlisi Factorial (en anglès Factor Analysis) i l’Anàlisi dels Components Principals (en anglès Principal Components Analysis (PCA))⁵. Aquestes tècniques utilitzen la variança de les combinacions linears dels diferents indicadors per determinar els pesos a partir de l’extracció dels factors/components subjacents⁶. En el manual de construcció d’indicadors de l’OCDE podem trobar un bon exemple de com es construeix un índex mitjançant PCA (OECD, 2008: 63-72).

⁵ Per saber com s’utilitza PCA, llegir aquest tutorial de Luke Hayden.

⁶ De fet, el PNUD ja va estudiar durant els primers anys la possibilitat de ponderar empíricament les variables però després de la publicació de diversos estudis en el report de 1993 es va descartar la idea (Stanton, 2007)

13.3 Agregació

L’agregació és el mètode que emprem per combinar les variables en l’índex final. Les dues maneres més comunes són amb una simple suma o, com hem fet fins ara, amb la mitjana aritmètica dels seus valors. Vegem-ho al següent codi, on hem creat el marc de dades df_agr de quatre observacions i tres variables: els indicadors indicador1, indicador2 i indicador3. A partir d’aquest marc de dades hem creat la Taula 13.10.

df_agr <- data.frame(obs = c("A", "B", "C", "D"),
           indicador1 = c(0.95, 0.2, 0.5, 1),
           indicador2 = c(0, 0.7, 0.5, 0.85),
           indicador3 = c(0.8, 0.75, 0.5, 0.70))

Taula 13.10: Tres indicadors
obs	indicador1	indicador2	indicador3
A	0.95	0.00	0.80
B	0.20	0.70	0.75
C	0.50	0.50	0.50
D	1.00	0.85	0.70

Com agreguem els tres indicadors? Estudiarem tres tipus d’agregació: la suma, la mitjana aritmètica i la mitjana geomètrica.

La suma és la simple suma dels seus valors. Rarament utilitzarem aquest mètode, perquè perdrem l’escala dels valors (ja no estem entre 0 i 1).

\[Suma = V1 + V2 + V3 + ... Vn\]

La mitjana aritmètica és la mitjana que coneixem, que suma els valors de cada indicador i divideix el resultat pel nombre d’indicadors.

\[Mitjana.aritmètica = \frac{V1 + V2 + V3 + ... Vn}{N}\]

La mitjana geomètrica multiplica els valors de cada indicador i aplica l’arrel del número de casos al resultat final.

\[Mitjana.geomètrica = \sqrt[n]{V1 * V2 * V3 *... Vn}\]

En el següent codi hem aplicat les tres diferents agregacions als indicadors del marc de dades df_agr. El resultat és la Taula 13.11.

df_agr %>%
  mutate(Sum = round(indicador1 + indicador2 + indicador3, 2),
         ArMean = round((indicador1 + indicador2 + indicador3)/3, 2),
         GeoMean = round((indicador1 * indicador2 * indicador3)^(1/3), 2))

Taula 13.11: Diferents agregacions amb tres indicadors normalitzats
obs	indicador1	indicador2	indicador3	Sum	ArMean	GeoMean
A	0.95	0.00	0.80	1.75	0.58	0.00
B	0.20	0.70	0.75	1.65	0.55	0.47
C	0.50	0.50	0.50	1.50	0.50	0.50
D	1.00	0.85	0.70	2.55	0.85	0.84

Com podeu comprovar, l’observació D és la que té un valor més alt en l’índex final, sigui quin sigui el tipus d’agregació. Ara bé, en les altres observacions hi ha més discrepàncies. Ja us avancem que la suma és una operació que farem en rares ocasions. Per tant, ens centrarem en observar les diferències entre la mitjana aritmètica i geomètrica:

El que més crida l’atenció és que, segons la mitjana aritmètica, el segon valor més alt seria A, seguit de B i C. En canvi, segons la mitjana geomètrica, el segon valor més alt seria C, seguit de B i A.
Això es deu a que la mitjana geomètrica penalitza els valors baixos. A l’observació B, el valor 0.20 penalitza de manera important en la mitjana geomètrica en relació a l’aritmètica. El cas extrem és quan hi ha presència del valor zero, que farà que l’índex final també sigui zero.
La mitjana geomètrica és problemàtica quan tenim valors zero o números negatius. Per tant, si volem aplicar la mitjana geomètrica, la normalització haurà de ser molt probablement teòrica a través del mètode Min-Max, semblant a la de l’IDH, per així podrem evitar valors 0 i valors negatius.

Exercici 13.9 (Mitjana geomètrica) Per veure les diferències entre la mitjana geomètrica i la mitjana aritmètica, realitzeu els exercicis següents:

Executeu aquest codi per tenir el resultat d’aplicar la mitjana aritmètica i la mitjana geomètrica als valors 100, 100 i 100. Proveu de realitzar les mateixes operacions amb els valors 50, 100 i 150.

(100 + 100 + 100) / 3
(100 * 100 * 100)^(1/3)

Executeu aquest codi per tenir el resultat d’aplicar la mitjana aritmètica i la mitjana geomètrica als valors 40, 100 i -20.

(40 + 100 + -20) / 3
(40 * 100 * -20)^(1/3)

L’IDH agrega els seus indicadors a través de la mitjana geomètrica. Els constructors de l’índex van creure oportú penalitzar intencionadament es penalitzen els valors baixos, de manera que si un país té alguna dimensió molt baixa quedarà fortament perjudicat en el seu IDH final. Per observar quin efecte té aquesta circumstància en varis països del rànquing, a la Taula 13.12 hem seleccionat els països que tenen menys variació entre els indicadors que conformen l’IDH i els que tenen més variació, calculats a partir de la desviació típica. També hem inclòs la posició que ocupen en el rànquing de 2018. Els primers 10 països de la taula són els que tenen menys diferència numèrica entre les dimensions i això es tradueix en una penalització pràcticament inperceptible en el seu IDH. En canvi, els darrers 10 països tenen, com a mínim, un valor baix, que penalitza considerablement en el seu índex.

Taula 13.12: Pèrdua d’IDH amb mitjana geomètrica
P	country	GNI	LE	ED	IDH
5	Alemanya	0.927	0.942	0.942	0.936
11	Dinamarca	0.932	0.937	0.920	0.929
159	Lesotho	0.526	0.532	0.504	0.520
30	Estònia	0.856	0.888	0.871	0.871
41	Letònia	0.834	0.842	0.866	0.847
4	Irlanda	0.950	0.948	0.917	0.938
36	Lituània	0.853	0.843	0.881	0.858
27	Txèquia	0.865	0.906	0.893	0.888
38	Eslovàquia	0.859	0.877	0.833	0.855
10	Països Baixos	0.932	0.954	0.907	0.931
167	Sudan	0.562	0.688	0.329	0.502
164	Senegal	0.479	0.731	0.369	0.505
56	Kuwait	0.991	0.843	0.621	0.803
181	Libèria	0.287	0.662	0.434	0.435
152	Illes Salomó	0.443	0.785	0.467	0.546
178	Iemen	0.380	0.695	0.350	0.452
173	Etiòpia	0.430	0.706	0.326	0.463
155	Síria	0.476	0.785	0.414	0.536
189	Níger	0.333	0.622	0.217	0.354
179	Eritrea	0.432	0.700	0.283	0.440

A la Taula 13.13 hem volgut fer una operació semblant a l’anterior, però comparant els valors obtinguts segons la mitjana aritmètica (IDH_aritm) i segons la mitjana geomètrica (IDH_geom). La darrera columna mostra la diferència entre el valor final de l’IDH calculat per una mitjana o l’altra.

Taula 13.13: Diferència entre mitjana geomètrica i aritmètica
P	country	GNI	LE	ED	IDH_aritm	IDH_geom	diff
1	Noruega	0.985	0.958	0.917	0.953	0.953	0.000
4	Irlanda	0.950	0.948	0.917	0.938	0.938	0.000
5	Alemanya	0.927	0.942	0.942	0.937	0.937	0.000
8	Suècia	0.932	0.963	0.902	0.932	0.932	0.000
10	Països Baixos	0.932	0.954	0.907	0.931	0.931	0.000
11	Dinamarca	0.932	0.937	0.920	0.930	0.930	0.000
12	Canadà	0.917	0.962	0.899	0.926	0.926	0.000
13	Estats Units	0.953	0.915	0.905	0.924	0.924	0.000
14	Regne Unit	0.902	0.949	0.913	0.921	0.921	0.000
15	Finlàndia	0.909	0.946	0.902	0.919	0.919	0.000
164	Senegal	0.479	0.731	0.369	0.526	0.506	-0.020
155	Síria	0.476	0.785	0.414	0.558	0.537	-0.021
183	Burkina Faso	0.423	0.628	0.286	0.446	0.424	-0.022
178	Iemen	0.380	0.695	0.350	0.475	0.452	-0.023
167	Sudan	0.562	0.688	0.329	0.526	0.503	-0.023
172	Djibouti	0.532	0.655	0.309	0.499	0.476	-0.023
173	Etiòpia	0.430	0.706	0.326	0.487	0.463	-0.024
181	Libèria	0.287	0.662	0.434	0.461	0.435	-0.026
179	Eritrea	0.432	0.700	0.283	0.472	0.441	-0.031
189	Níger	0.333	0.622	0.217	0.391	0.356	-0.035

13.4 Els tres procediments junts

El resum de tot aquest apartat el trobem en el següent codi, que serveix per generar la Taula 13.14. El codi mostra com calculem l’IDH a partir de les variables originals del marc de dades hdi. Observeu com amb poques línies de codi podem normalitzar, ponderar i agregar les dades inicials per generar el nou marc de dades de l’IDH, que hem anomenat hdi17:

Normalitzem les variables GNI, E1, E2 i LE.
A la normalització de l’educació aprofitem per agregar les variables E1 i E2 a la dimensió ED, de manera que ens quedem amb les tres dimensions: GNI, ED i LE.
Agreguem els indicadors GNI, ED i LE amb mitjana geomètrica per crear la variable IDH2.
Guardem els resultats com l’objecte hdi17, ja que els resultats corresponen a l’any 2017, i en demanem les primeres 10 files.

hdi17 <- hdi %>%
  mutate(GNI = if_else(GNI > 75000, 1, round((log(GNI) - log(100)) / (log(75000) - log(100)), 3)), #normalitzem el GNI
         ED = round((if_else(E1 > 18, 1, E1 / 18) + #normalitzem i agreguem/ponderem ED (suma E1 i E2)
              if_else(E2 > 15, 1, E2 / 15)) / 2, 3),   
         LE = round((LE - 20) / (85 - 20), 3), #normalitzem LE
         IDH2 = round((GNI * ED * LE)^(1/3), 3)) %>% #agregació
  select(P, country, IDH, GNI, LE, ED, IDH) #seleccionem les columnes que volem mostrar

head(hdi17, 10) #demanem les primeres 10 files

Taula 13.14: Índex de Desenvolupament Humà 2018
P	country	IDH	GNI	LE	ED
1	Noruega	0.953	0.985	0.958	0.917
2	Suïssa	0.944	0.960	0.977	0.897
3	Austràlia	0.939	0.918	0.971	0.930
4	Irlanda	0.938	0.950	0.948	0.917
5	Alemanya	0.936	0.927	0.942	0.942
6	Islàndia	0.935	0.926	0.968	0.913
7	Hong Kong (RAE Xina)	0.933	0.962	0.986	0.853
8	Suècia	0.933	0.932	0.963	0.902
9	Singapur	0.932	1.000	0.972	0.833
10	Països Baixos	0.931	0.932	0.954	0.907

Es pot ponderar variables i demanar a l’hora la mitjana geomètrica, encara que requereix una fórmula més sofisticada. La mitjana geomètrica ponderada (MGP) és la suma del logaritme neperià de cada variable (\(V\)) multiplicat per la seva ponderació (\(P\)). Al resultat, es calcula l’exponencial (\(\exp\)) i es divideix per la suma de les ponderacions (\(\sum(Pn)\)):

\[MGP = \frac{\exp(\sum(log(V_1) * P_1 + log(V_2) * P_2 + ... log(V_n) * P_n))}{\sum(Pn)}\] La fórmula pot semblar complicada, però aplicar-la a R no és difícil, en especial si ja tenim les variables normalitzades com és el cas del marc de dades hdi17. Imaginem-nos que volem calcular la mitjana geomètrica ponderada de la següent manera:

Donarem un 20% d’importància als ingressos (GNI).
Donarem un 50% d’importància a l’educació (ED).
Donarem un 30% d’importància a l’esperança de vida (LE).
També hi hem d’afegir la funció round() per afegir tres decimals al resultat.

hdi17 %>%
  mutate(IDH_MGP = round(exp(log(GNI)*0.2 + log(ED)*0.5 + log(LE)*0.3) / 1, 3))

Tingueu en compte que en el divisor (\(\sum(Pn)\)) hi haurà de figurar la suma de les ponderacions. En el nostre exemple és 1, ja que 0.2 + 0.5 + 0.3 = 1.