Want to make creations as awesome as this one?

Transcript

Box plot

Un box plot es una representación de los datos a través de sus cuartiles, mismos que se muestran en la caja junto con la mediana. Los valores extremos (mínimo y máximo) se representan en los márgenes de los brazos o bigotes; y fuera de éstos, los valores atípicos, que se especifican mediante puntos. Utiliza este tipo de diagrama cuando desees evaluar la dispersión y la tendencia central de un conjunto de datos.

Grafiquemos un boxplot con la expectativa de vida por continente.

Para obtener el mismo resultado anterior, usamos el siguiente código

Boxplot con Pandas

Boxplot con Seaborn

¡Ahora es tu turno!

Reflexiona

La función boxplot de matplotlib recibe como parámetros la columna a graficar y su etiqueta. Hay que cuidar que NO existan valores vacíos porque en ese caso el gráfico no se dibujaría. plt.boxplot(countries['LifeExpectancy'].dropna(), labels=['LifeExpectancy']) En la figura anterior se observan los tres cuartiles: 0.25 (1er cuartil), 0.50 (2do cuartil - mediana) y 0.75 (3er cuartil) en la caja countries['LifeExpectancy'].quantile(.25) 60.3 Lo que significa que el 25% de los países tiene expectativa de vida menor o igual a los 60.3 años countries['LifeExpectancy'].median() 70.15 Lo que significa que el 50% de los países tiene expectativa de vida menor o igual a los 70.15 años countries['LifeExpectancy'].quantile(.75) 75.5 Lo que significa que el 75% de los países tiene expectativa de vida menor o igual a los 75.5 años Los brazos o bigotes son calculados en función del rango intercuartílico. La división por categoría del resultado anterior, por ejemplo: obtener un boxplot por continente, es compleja usando sólo matplotlib, por lo que se recomienda hacerlo con una interfaz de trazado superior como Pandas o Seaborn.

countries.boxplot(column='LifeExpectancy', by='Continent', figsize=(6,6), rot=90) Del gráfico anterior se puede observar que África es el continente con mayor dispersión, lo que significa que la expectativa de vida varía mucho de un país a otro en dicho continente. Europa es el continente con mayor expectativa de vida: la distancia entre el 1er cuartil y el 3er cuartil (rango intercuartil) indica que el 50% central de los países europeos poseen una expectativa entre los 70 y 80 años.

sns.boxplot(x=countries['Continent'], y=countries['LifeExpectancy']) plt.xticks(rotation=90)

Obtén un dataframe, partiendo de countries, en donde guardes únicamente los registros del continente europeo (Europe). Utiliza la plataforma de trazado que desees, para generar un diagrama de boxplot que muestre las estadísticas del GNP por región (Region) y responde los siguientes cuestionamientos:

  1. ¿Qué región europea posee mayor GNP?
  2. ¿Qué Reflexionan los puntos en el gráfico?
  3. ¿En qué región hay menor dispersión del GNP?
  4. ¿Cuál es el valor del tercer cuartil en Southern Europe? ¿Qué indica este resultado?