Visualizar datos
La visualización es una parte importantísima en el trabajo de un analista de datos, puesto que todo el trabajo llevado a cabo en el proceso de análisis también se tiene que poder comunicar por medio de gráficas atractivas y fáciles de entender. Esto quiere decir que una parte de la información que hemos conseguido generar mediante varias funciones del paquete dplyr se puede quedar en nada si no somos capaces de transmitirla al gran público. Es famoso el adagio que dice que “una imagen vale más que mil palabras” y, efectivamente, una gráfica cualquiera permite comunicar y resumir de forma muy efectiva la información que contiene una base de datos. Ahora bien, no todas las imágenes son iguales ni todas las gráficas son igualmente efectivas. Es importante conocer cuál es la mejor manera de generar gráficas para transmitir la información deseada sin confundir al público que tiene que visualizar aquella imagen. Cuando una gráfica contiene demasiada información, o no refleja de forma simple los datos con los que se trabaja, puede dificultar la legibilidad y debilitar el objetivo de comunicación de la gráfica.
R tiene diferentes formas de generar gráficas. Las más básicas son aquellas funciones base que se pueden encontrar en el paquete graphics, como podrían ser plot()
, boxplot()
o hist()
y que permiten hacer gráficas rápidas y de manera exploratoria. Estas gráficas pueden ser útiles mientras se trabaja en la gestión de los datos para verificar que estos se han recodificado de forma adecuada o para comprobar que la escala que se usa es la deseada. Ahora bien, las gráficas que se pueden hacer con este paquete tienen funcionalidades limitadas y no son suficientemente atractivas para comunicar. Cuando se usa R para crear gráficas, el paquete más utilizado es ggplot2 (Wickham et al., 2023). Este paquete tiene una gran potencia y flexibilidad, puesto que está pensado para representar estéticamente los datos a partir de una gramática implícita formada por varias capas de sintaxis. A pesar de que esto puede parecer muy complicado de entrada, en este capítulo se verá que es más sencillo de lo que parece. De forma resumida, lo que hace ggplot2 es aplicar una lógica de capas, cada una con una parte de información visual diferente, para construir una gráfica.
R nos permite hacer todas estas visualizaciones, pero es un proceso laborioso. No enseñaremos a hacerlas tan sofisticadas, pero sí a poner los fundamentos principales para que, si alguien tiene tiempos y ganas, pueda desarrollar visualizaciones como estas.
En este capítulo, primero entenderemos el funcionamiento de esta lógica de capas y veremos las tres capas principales que utiliza el paquete ggplot2. Seguidamente, aprenderemos a hacer diferentes tipos de visualizaciones. Principalmente, el tipo de variable que queramos mostrar determinará de manera importante la visualización que escojamos. Finalmente, veremos otras capas de ggplot2, que, si bien no son esenciales, sí que nos permitirán afinar la calidad de nuestras visualizaciones.