Análisis univariado
Como hemos podido comprobar hasta ahora, cuando exploramos y transformamos marcos de datos nos enfrentamos a grandes cantidades de información que necesitamos simplificar para una mejor descripción e interpretación. El análisis univariado —es decir, el análisis de una variable— nos permite precisamente esta tarea. Se trata de un conjunto de técnicas cuantitativas y visuales que nos ayudan a sintetizar la información contenida en una variable facilitando su descripción. A través de la descripción de variables, podremos aplicar posteriormente otras técnicas que permitan, por ejemplo, la explicación de los efectos o las causas de determinados fenómenos sociales (King et al., 1994).
El uso de las técnicas de análisis univariado es crucial para describir adecuadamente los datos. Para ilustrar este punto, en el ejercicio siguiente veremos qué pasa cuando intentamos observar variables que no están resumidas.
Como has podido comprobar en este ejercicio, sin conocer técnicas de análisis univariado nos será difícil comprender adecuadamente la gran cantidad de información con la que nos encontramos en un marco de datos. Así pues, tendremos que dominar métodos que nos permitan resumir las variables tanto numérica como visualmente, con el fin de hacer una descripción coherente de esta información. En la figura 1 hemos aplicado dos técnicas de visualización que se conocen como el diagrama de barras (a) y el histograma (b). El diagrama de barras nos permite identificar que la variable continent
tiene África como el valor más frecuente, mientras que Oceanía es el menos presente. En cuanto al histograma, observamos que la concentración de valores mayor para la variable gdpcap_nuts
(más de 100 observaciones) se sitúa en cerca de 10.000-20.000, mientras que el valor máximo se sitúa aproximadamente en 100.000. Esta información habría sido imposible de obtener sin aplicar estas técnicas.
Aparte de visualizaciones, también tendremos que hacer resúmenes numéricos de las variables. Una primera aproximación numérica nos la ofrece la función summary()
, que devolverá las frecuencias de una variable categórica y algunas medidas sintéticas de centralidad y localización de una variable numérica. Lo veremos con más detalle en los siguientes apartados.
summary(gapminder)
## country continent year lifeExp
## Afghanistan: 12 Africa :624 Min. :1952 Min. :23.60
## Albania : 12 Americas:300 1st Qu.:1966 1st Qu.:48.20
## Algeria : 12 Asia :396 Median :1980 Median :60.71
## Angola : 12 Europe :360 Mean :1980 Mean :59.47
## Argentina : 12 Oceania : 24 3rd Qu.:1993 3rd Qu.:70.85
## Australia : 12 Max. :2007 Max. :82.60
## (Other) :1632
## pop gdpPercap
## Min. : 60011 Min. : 241.2
## 1st Qu.: 2793664 1st Qu.: 1202.1
## Median : 7023596 Median : 3531.8
## Mean : 29601212 Mean : 7215.3
## 3rd Qu.: 19585222 3rd Qu.: 9325.5
## Max. :1318683096 Max. :113523.1
##
La naturaleza de la variable que queremos estudiar, pues, determinará en buena parte los instrumentos que utilizaremos para sintetizar de forma cuantitativa y visual los valores de una variable:
- Si es una variable categórica, aplicaremos técnicas cuantitativas como la tabla de frecuencias y visuales como el diagrama de barras.
- Si es una variable numérica, aplicaremos técnicas cuantitativas como la media o la desviación típica y visuales como el histograma.