
L’estructura de dades d’R
L’estructura de dades d’R acaba essent extremadament senzilla per a qualsevol usuari que hagi dedicat unes hores a l’aprenentatge d’aquest llenguatge de programació. Però per arribar a aquest punt cal tenir molt clares algunes regles molt bàsiques del seu funcionament. Si entenem aquestes regles senzilles, ens serà molt fàcil i intuïtiu treballar amb R. És per això que cal seguir aquest mòdul amb moltíssima atenció. El dia a dia amb R es basa en dues accions clau: crear objectes i aplicar funcions a aquests objectes. En primer lloc, en aquest mòdul aprendrem a crear objectes (1), que ens serveixen per emmagatzemar informació. Principalment, coneixerem tres maneres diferents d’emmagatzemar-la:
- A. Els valors, que són la unitat més petita d’R.
- B. Els vectors, que estan formats per una cadena de valors.
- C. I els marcs de dades, formats per varis vectors d’igual longitud.
Fixem-nos en el marc de dades que veiem a la figura 1, que representa les dades de participació en les últimes eleccions de diversos països. El marc de dades (C) està format per varis vectors (B). Cada vector està representat en una columna diferent del marc de dades. Tots els vectors d’un marc de dades tenen la mateixa longitud. En aquest exemple, tots els vectors són de longitud cinc. Això significa que cada vector està format per cinc valors (A). Cada valor és una casella del marc de dades i és la unitat més petita d’R que estudiarem.
Per crear aquest marc de dades hem utilitzat el codi següent. Com veieu, l’hem emmagatzemat en l’objecte elections. Necessitarem tenir carregat el paquet dplyr, necessari per executar la funció tibble():
elections <- tibble(country = c("Colombia", "Japan", "Germany", "Chile", "New Zealand"),
year = as.integer(c(2022, 2021, 2021, 2021, 2020)),
date = as.Date(c("2022/05/29", "2021/10/31", "2021/09/26", "2021/11/21", "2020/10/17")),
turnout = c(54.98, 55.97, 76.58, 47.33, 82.24),
continent = factor(c("America", "Asia", "Europe", "America", "Oceania")),
presidential = c(TRUE, FALSE, FALSE, TRUE, FALSE))Com hem avançat anteriorment, la segona acció clau del treball amb R és aplicar funcions (2) a objectes d’R. Al llarg d’aquest mòdul anirem coneixent diverses funcions, encara que a continuació en veurem un petit tast. A cada pestanya apliquem una funció diferent a l’objecte elections.
Quan apliquem la funció dim() a un marc de dades, ens retorna un vector amb dos valors. El primer valor representa la quantitat de files i el segon valor, la quantitat de columnes del marc de dades.
Si apliquem la funció dim() al marc de dades elections, observem que el marc de dades té cinc files i sis columnes.
dim(elections)
## [1] 5 6La funció unique() ens retorna els valors únics d’un vector. Això ens permet saber quantes categories diferents té un vector.
Si apliquem la funció unique() al vector year del marc de dades elections, observem com ens retorna tres valors, perquè el 2021 està repetit i només ens retorna els valors ‘únics’.
unique(elections$year)
## [1] 2022 2021 2020L’objectiu principal d’aquest mòdul és conèixer l’estructura dels marcs de dades i de les funcions d’R. Per això aprendrem a crear marcs de dades i hi aplicarem funcions. Hem de confessar, no obstant això, que un analista de dades rarament crea marcs de dades des de zero amb R. Això s’acostuma a deixar per altres programes com, per exemple, Microsoft Excel. A R normalment es comença a partir de la importació de dades, creades prèviament, per tal de poder-les treballar amb el programa. Així i tot, és important aprendre a crear marcs de dades perquè així ens podem familiaritzar amb la seva estructura, cosa que ens serà imprescindible per fer funcionar R amb agilitat i explotar els avantatges que ens ofereix el programa.
Abans de començar, recapitularem algunes idees clau.
Treballar amb R consisteix més o menys a fer el següent:
- Carregar els paquets que necessitem.
- Crear objectes, que trobarem en els paquets o bé que crearem a partir d’importar alguna base de dades.
- Aplicar funcions als objectes, que ens permetrà transformar, analitzar i visualitzar les dades que tenen emmagatzemades.
Anem a veure amb detall, en els propers apartats, què són els objectes i les funcions.