DSA M4 08 GEN Box plot
contenido
Created on April 21, 2021
More creations to inspire you
LET’S GO TO LONDON!
Personalized
SLYCE DECK
Personalized
ENERGY KEY ACHIEVEMENTS
Personalized
CULTURAL HERITAGE AND ART KEY ACHIEVEMENTS
Personalized
ABOUT THE EEA GRANTS AND NORWAY
Personalized
DOWNFALLL OF ARAB RULE IN AL-ANDALUS
Personalized
HUMAN AND SOCIAL DEVELOPMENT KEY
Personalized
Transcript
Box plot
Un box plot es una representación de los datos a través de sus cuartiles, mismos que se muestran en la caja junto con la mediana. Los valores extremos (mínimo y máximo) se representan en los márgenes de los brazos o bigotes; y fuera de éstos, los valores atípicos, que se especifican mediante puntos. Utiliza este tipo de diagrama cuando desees evaluar la dispersión y la tendencia central de un conjunto de datos.
Grafiquemos un boxplot con la expectativa de vida por continente.
Para obtener el mismo resultado anterior, usamos el siguiente código
Boxplot con Pandas
Boxplot con Seaborn
¡Ahora es tu turno!
Reflexiona
La función boxplot de matplotlib recibe como parámetros la columna a graficar y su etiqueta. Hay que cuidar que NO existan valores vacíos porque en ese caso el gráfico no se dibujaría. plt.boxplot(countries['LifeExpectancy'].dropna(), labels=['LifeExpectancy']) En la figura anterior se observan los tres cuartiles: 0.25 (1er cuartil), 0.50 (2do cuartil - mediana) y 0.75 (3er cuartil) en la caja countries['LifeExpectancy'].quantile(.25) 60.3 Lo que significa que el 25% de los países tiene expectativa de vida menor o igual a los 60.3 años countries['LifeExpectancy'].median() 70.15 Lo que significa que el 50% de los países tiene expectativa de vida menor o igual a los 70.15 años countries['LifeExpectancy'].quantile(.75) 75.5 Lo que significa que el 75% de los países tiene expectativa de vida menor o igual a los 75.5 años Los brazos o bigotes son calculados en función del rango intercuartílico. La división por categoría del resultado anterior, por ejemplo: obtener un boxplot por continente, es compleja usando sólo matplotlib, por lo que se recomienda hacerlo con una interfaz de trazado superior como Pandas o Seaborn.
countries.boxplot(column='LifeExpectancy', by='Continent', figsize=(6,6), rot=90) Del gráfico anterior se puede observar que África es el continente con mayor dispersión, lo que significa que la expectativa de vida varía mucho de un país a otro en dicho continente. Europa es el continente con mayor expectativa de vida: la distancia entre el 1er cuartil y el 3er cuartil (rango intercuartil) indica que el 50% central de los países europeos poseen una expectativa entre los 70 y 80 años.
sns.boxplot(x=countries['Continent'], y=countries['LifeExpectancy']) plt.xticks(rotation=90)
Obtén un dataframe, partiendo de countries, en donde guardes únicamente los registros del continente europeo (Europe). Utiliza la plataforma de trazado que desees, para generar un diagrama de boxplot que muestre las estadísticas del GNP por región (Region) y responde los siguientes cuestionamientos:
- ¿Qué región europea posee mayor GNP?
- ¿Qué Reflexionan los puntos en el gráfico?
- ¿En qué región hay menor dispersión del GNP?
- ¿Cuál es el valor del tercer cuartil en Southern Europe? ¿Qué indica este resultado?