Análisis univariado

Como hemos podido comprobar hasta ahora, cuando exploramos y transformamos marcos de datos nos enfrentamos a grandes cantidades de información que necesitamos simplificar para una mejor descripción e interpretación. El análisis univariado —es decir, el análisis de una variable— nos permite precisamente esta tarea. Se trata de un conjunto de técnicas cuantitativas y visuales que nos ayudan a sintetizar la información contenida en una variable facilitando su descripción. A través de la descripción de variables, podremos aplicar posteriormente otras técnicas que permitan, por ejemplo, la explicación de los efectos o las causas de determinados fenómenos sociales (King et al., 1994).

El uso de las técnicas de análisis univariado es crucial para describir adecuadamente los datos. Para ilustrar este punto, en el ejercicio siguiente veremos qué pasa cuando intentamos observar variables que no están resumidas.

Ejercicio 1 (Observa los datos) Sin hacer ninguna modificación, reproduce en tu R el código siguiente e intenta hacer una descripción de los datos con la información que te sale en la pantalla.

  • Primero, observaremos una variable categórica: la variable continent del marco de datos gapminder.
library(gapminder)
gapminder$continent
  • A continuación, observaremos una variable numérica: la variable gdpcap_nuts del marco de datos nuts.
nuts$gdpcap_nuts

Como has podido comprobar en este ejercicio, sin conocer técnicas de análisis univariado nos será difícil comprender adecuadamente la gran cantidad de información con la que nos encontramos en un marco de datos. Así pues, tendremos que dominar métodos que nos permitan resumir las variables tanto numérica como visualmente, con el fin de hacer una descripción coherente de esta información. En la figura 1 hemos aplicado dos técnicas de visualización que se conocen como el diagrama de barras (a) y el histograma (b). El diagrama de barras nos permite identificar que la variable continent tiene África como el valor más frecuente, mientras que Oceanía es el menos presente. En cuanto al histograma, observamos que la concentración de valores mayor para la variable gdpcap_nuts (más de 100 observaciones) se sitúa en cerca de 10.000-20.000, mientras que el valor máximo se sitúa aproximadamente en 100.000. Esta información habría sido imposible de obtener sin aplicar estas técnicas.

barplot(table(gapminder$continent))
hist(nuts$gdpcap_nuts)

(a) Visualización variable categórica

(b) Visualización variable numérica

Figura 1: Análisis univariado de una variable categórica y una variable numérica

Aparte de visualizaciones, también tendremos que hacer resúmenes numéricos de las variables. Una primera aproximación numérica nos la ofrece la función summary(), que devolverá las frecuencias de una variable categórica y algunas medidas sintéticas de centralidad y localización de una variable numérica. Lo veremos con más detalle en los siguientes apartados.

summary(gapminder)
##         country        continent        year         lifeExp     
##  Afghanistan:  12   Africa  :624   Min.   :1952   Min.   :23.60  
##  Albania    :  12   Americas:300   1st Qu.:1966   1st Qu.:48.20  
##  Algeria    :  12   Asia    :396   Median :1980   Median :60.71  
##  Angola     :  12   Europe  :360   Mean   :1980   Mean   :59.47  
##  Argentina  :  12   Oceania : 24   3rd Qu.:1993   3rd Qu.:70.85  
##  Australia  :  12                  Max.   :2007   Max.   :82.60  
##  (Other)    :1632                                                
##       pop               gdpPercap       
##  Min.   :     60011   Min.   :   241.2  
##  1st Qu.:   2793664   1st Qu.:  1202.1  
##  Median :   7023596   Median :  3531.8  
##  Mean   :  29601212   Mean   :  7215.3  
##  3rd Qu.:  19585222   3rd Qu.:  9325.5  
##  Max.   :1318683096   Max.   :113523.1  
## 

La naturaleza de la variable que queremos estudiar, pues, determinará en buena parte los instrumentos que utilizaremos para sintetizar de forma cuantitativa y visual los valores de una variable: