Conjunts de dades

Quan utilitzem l’anàlisi quantitativa en Ciències Socials, una de les primeres coses que fem –explícitament o implícitament– és definir el contingut del món social, convertir-lo en fenòmens mesurables i recopilar-ho i sistematitzar-ho en conjunts de dades que ens permetin estudiar aquests fenòmens. Aquesta és una tasca que moltes vegades ens pot semblar que «ve donada», perquè habitualment algú altre haurà recollit les dades per nosaltres, les haurà sistematitzat i les haurà ubicat en una base de dades perquè les puguem utilitzar. Però qui es dediqui a l’anàlisi de dades no ha d’oblidar que abans de l’anàlisi hi ha un pas previ que consisteix a observar el món, descriure els elements que existeixen i quantificar-los d’una manera que els puguem estudiar.

De manera molt resumida, el procés de quantificació funciona com veiem a la figura 1. Tant en el món físic com en el món social, les dades no existeixen. La humanitat, al llarg de la història, ha anat estructurant la seva manera de pensar d’acord amb idees i ha anat definint d’una manera més o menys clara els objectes que coneixem. Així, hem quantificat el pas del temps en anys, prenent com a unitat la rotació sencera de la Terra al voltant del Sol i, en les cultures de tradició cristiana, com a valor zero el naixement de Crist. El mateix hem fet per construir altres unitats de mesura o per classificar tota mena d’objectes. Primer els hem hagut de delimitar a partir de definicions precises. Per exemple, hem construït la categoria ‘arbre’ i a partir d’una definició clara hem distingit els arbres d’altres objectes similars com ‘arbustos’ o ‘plantes’. Així, hem pogut estudiar els arbres, amb les seves característiques, com l’amplada del tronc o la longitud, el color i la perennialitat de les seves fulles, i estudiar la seva relació amb altres fenòmens com el clima, l’altitud o la irregularitat del terreny.

Figura 1: El procés de passar de les idees sobre el funcionament del món a la quantificació de dades

Les dades de la imatge s’han obtingut d’Intra-State War Data (v5.1) (Sarkees & Wayman, 2010).

En el món social, el procés de quantificació ha funcionat de manera molt semblant al del món natural. Hem construït fenòmens socials com el suïcidi, la democràcia, la desigualtat, els estats o les guerres. I per fer-ho sempre ens ha estat útil establir definicions precises. Gràcies a això hem pogut capturar aquests fenòmens, els hem distingit d’altres fenòmens semblants, i hem establert mesures, sempre imperfectes, per tal d’analitzar-los amb el propòsit de crear coneixement sobre el seu comportament i la seva relació amb altres fenòmens. Així, seguint els elements que es mostren a la figura 1, en l’àmbit acadèmic s’ha acabat determinant què significa «iniciar una guerra», quan podem considerar que acaba una guerra o quins diferents tipus de resultats hi pot haver. Malgrat que totes les mesures puguin tenir certa controvèrsia, tenir definit el nostre propòsit –què volem investigar, quines preguntes volem contestar– serà sempre fonamental per a una bona investigació (Anduiza et al., 2009).

Practicar amb les funcions

Al llarg d’aquest mòdul, serà bo que ens anem familiaritzant amb algunes funcions d’R que ens permeten explorar el marc de dades. Les més habituals, aplicades a marcs de dades, són:

I aplicades a vectors, són:

Un cop realitzat aquest procés conceptual, el pas següent per analitzar quantitativament el món social és agrupar les dades sobre el fenomen social que volem estudiar en un dataset o conjunt de dades. Un conjunt de dades és una col·lecció de valors que té les característiques següents (Wickham, 2014):

En aquest mòdul desglossarem aquests tres conceptes i veurem diversos exemples de bases de dades relacionades amb les Ciències Socials, en especial de Ciència Política, Sociologia i Relacions Internacionals. En el primer apartat veurem les observacions, en el segon les variables i en el tercer com modificar les variables. Al llarg d’aquests capítols ens referirem sovint a termes molt similars: bases de dades, conjunts de dades, marcs de dades o, simplement, dades. A la pràctica són conceptes gairebé intercanviables, però val la pena tenir en compte les diferències terminològiques entre ells.

Terminologia

Hi ha conceptes molt semblants, gairebé intercanviables, que val la pena definir:

  • Taula (table): conjunt d’elements o figures mostrades de manera sistemàtica, normalment en columnes. Gairebé qualsevol cosa pot ser una taula, per exemple, la taula periòdica, la taula de multiplicar, la taula fonètica, etc.
  • Base de dades (database): agrupació emmagatzemada de dades a la qual es pot accedir electrònicament. És el terme més comú i genèric. Es pot referir a diversos conjunts de dades, com el catàleg d’una biblioteca o qualsevol cercador d’internet.
  • Conjunt de dades (dataset): col·lecció estructurada de dades, generalment associada a un conjunt únic de treball. Acostuma a ser més concret que una base de dades.
  • Full de càlcul (spreadsheet): document electrònic en el qual les dades s’ordenen en files i columnes. L’exemple més clar és el que utilitza Microsoft Excel.
  • Marc de dades (dataframe): tipus d’objecte d’R que permet emmagatzemar dades en dues dimensions: files i columnes. Tot marc de dades és un conjunt de dades o una base de dades, però no tots els conjunts i les bases de dades són marcs de dades.