Distribution
Laura De la Hoz
Created on October 17, 2023
More creations to inspire you
Transcript
START
Laura De La HozAlison Reyes
Distribution
- ¿De qué trata este capitulo?
- Histograma
- Diagrama de pareto
- Comprender los percentiles
- Gráfico de pirámides
- Gráficos de visualizacion de incertidumbres
- Barras de error
- Intervalo de confianza
- Gráfico de gradientes
- Grafico de abanicos
- El aspecto dibujado a mano
- Diagrama de cajas y bigotes
- Gráfica de velas
- Strip plot - Parcela
Contenido
¿De qué trata este capitulo?
01
+ Info
02
Los gráficos de este capitulo siguen las directrices publicadas por el Dallas Morning News en 2005, que incluyen instrucciones sobre tipos de letra y colores específicos, así como formas de diseñar y estilizar distintos gráficos, tablas, mapas iconos y un resumen del flujo de trabajo en la redacción.
01
Este capitulo trata de las visualizaciones de las distribuciones de datos y las incertidumbres estadísticas.
- Es el tipo mas básico para visualizar una distribución, es un grafico de barras que presenta la frecuencia tabulada de los datos en intervalos distintos llamados bins que suman el total de la distribución.
- Toda la muestra se divide en estos intervalos, y la altura de cada barra muestra el número de observaciones dentro de cada intervalo.
- Los histogramas pueden mostrar dónde se concentran los valores dentro de una distribución, dónde están los valores extremos y si hay huecos o valores inusuales.
Histograma
02
Histograma
02
- El diagrama de Pareto muestra los valores de cada grupo (normalmente en barras) y el total acumulado en forma de línea.
Diagrama de pareto
03
- Los percentiles identifican una ubicación específica en la distribución de datos:
Comprender los percentiles
04
- Se suelen utilizar para mostrar los cambios en las métricas basadas en la población, como las tasas de natalidad, las tasas de mortalidad, la edad o los niveles generales de población, colocan dos grupos a cada lado de un eje vertical central.
Gráfico de piramides
05
- Es importante entender como la incertidumbre y el error de medición pueden afectar los resultados y las visualizaciones.
- Hay dos tipos de incertidumbres: una es la incertidumbre derivada del azar, que se aplica a la confianza estadística en nuestros modelos y resultados estadísticos. Otro tipo es lo que podríamos denominar incertidumbre por incógnitas, cuando nuestros datos son inexactos, poco fiables, imprecisos o incluso desconocidos.
- Siempre que trabajemos con datos, debemos tener en cuenta cómo estos tipos de incertidumbre pueden dar lugar a cierto "error" en torno a nuestras estimaciones finales.
- Los creadores de gráficos no incluían la incertidumbre en su trabajo por cuatro razones principales. En primer lugar, no querían confundir o abrumar a los espectadores. En segundo lugar, no tenían acceso a información sobre la incertidumbre de sus datos. En tercer lugar, no sabían cómo calcular la incertidumbre. Y cuarto, no querían que los datos parecieran cuestionables.
Gráficos de visualizacion de incertidumbres
06
- La forma más sencilla y común de visualizar la incertidumbre es utilizar barras de error: pequeños marcadores que denotan el margen de error o el intervalo de confianza. Las barras de error no son realmente una visualización en sí mismas, sino un añadido a otros gráficos, a menudo gráficos de barras o de líneas.
Barras de error
a.
- Un gráfico de intervalos de confianza suele utilizar líneas o áreas sombreadas para representar rangos o cantidades de incertidumbre.
- El gráfico básico de intervalos de confianza es literalmente un gráfico de líneas con tres líneas: una para la estimación central, otra para el valor superior del intervalo de confianza y otra para el valor inferior del intervalo de confianza (estas líneas superior e inferior pueden ser intervalos de confianza, errores estándar o un número fijo).
Intervalo de confianza
b.
Este gráfico de rayas de ShowYourStripes.com muestra las temperaturas mundiales desde 1850 hasta 2018. Las sencillas rayas de colores son fáciles de ver y entender.
- Un gráfico de gradiente (a veces denominado gráfico de rayas) muestra distribuciones o diferencias de incertidumbre.
- Los gráficos de gradiente utilizan un gradiente de color en uno o ambos lados del número primario de interés para mostrar distribuciones o incertidumbre.
- Los ingresos medios en este caso se codifican con la línea horizontal oscura.
Gráfico de gradientes
c.
- Las bandas de color muestran el error típico dividido en ocho segmentos, aunque también podrían mostrar bandas de percentiles u otras medidas.
Grafico de abanicos
d.
- Una última estrategia que sugiere incertidumbre no es una técnica de visualización propiamente dicha, sino una técnica de diseño. Las técnicas de dibujo a mano, "sketchy", "gooey" o "painty" pueden utilizarse para añadir una sensación de incertidumbre o imprecisión.
El aspecto dibujado a mano
e.
Un diagrama de cajas y bigotes, también conocido como "box plot" en inglés, es una representación gráfica que se utiliza para mostrar la distribución de un conjunto de datos numéricos. Este tipo de gráfico proporciona información sobre la mediana, el rango intercuartílico, los valores atípicos y la dispersión de los datosToda la muestra se divide en estos intervalos, y la altura de cada barra muestra el número de observaciones dentro de cada intervalo.
Diagrama de caja y bigotes
07
- Mediana (línea central en la caja): La línea en el medio de la caja representa la mediana de los datos, que es el valor que separa el conjunto de datos en dos mitades iguales.
- Caja (o rectángulo): La caja en el diagrama de cajas y bigotes muestra el rango intercuartílico (RIC), que es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). El 50% de los datos se encuentra dentro de la caja.
- Bigotes (líneas que se extienden desde la caja): Los bigotes representan la variabilidad de los datos fuera del RIC. El bigote inferior se extiende desde Q1 hacia el valor mínimo no considerado un valor atípico, y el bigote superior se extiende desde Q3 hacia el valor máximo no considerado un valor atípico.
- Valores atípicos (puntos fuera de los bigotes): Los valores atípicos son puntos que se encuentran fuera de los bigotes y pueden indicar datos que son inusualmente altos o bajos en relación con el resto de los datos.
Diagrama de caja y bigotes
07
Velas: Cada "vela" en el gráfico representa un período de tiempo determinado, que puede ser minutos, horas, días, semanas, o cualquier otro intervalo. Cuerpo de la vela: El cuerpo de la vela muestra la diferencia entre el precio de apertura y el precio de cierre del activo durante el período de tiempo específico. Si el precio de cierre es más alto que el precio de apertura, el cuerpo de la vela suele estar coloreado de blanco o verde. Si el precio de cierre es más bajo que el precio de apertura, el cuerpo de la vela suele estar coloreado de negro o rojo. Mejoramiento: Las mechas o sombras de la vela representan los precios más altos y más bajos alcanzados durante el período de tiempo. La parte superior de la mecha es el precio más alto (máximo) y la parte inferior de la mecha es el precio más bajo (mínimo). Patrones de velas: Los analistas técnicos utilizan patrones específicos de velas para tomar decisiones de inversión. Algunos de estos patrones, como el "martillo", el "hombre colgado" y el "doji", proporcionan señales sobre posibles movimientos futuros en el mercado. Tendencias y cambios en el mercado: Observar varios patrones de velas y cómo se desarrollan a lo largo del tiempo puede proporcionar información sobre la tendencia actual del mercado y posibles cambios en la dirección de los precios.
Tipo de gráfico utilizado comúnmente en el análisis técnico de los mercados financieros, como el mercado de valores, el mercado de divisas y el mercado de futuros. Este tipo de gráfico proporciona información sobre la acción del precio de un activo financiero durante un período de tiempo específico.
Gráfico de velas o de acciones
08
Gráfica utilizada en estadísticas y visualización de datos para mostrar la distribución de múltiples variables a lo largo de un eje común. Este tipo de gráfico es especialmente útil para comparar las distribuciones de datos de diferentes grupos o categorías. Este tipo de gráfico es especialmente útil cuando se desea comparar múltiples distribuciones de datos, como puede ser el caso en el análisis de datos en áreas como la ciencia de datos, la estadística, la investigación social o la biología. Las parcelas ridgeline ayudan a identificar patrones, similitudes y diferencias entre las distribuciones de las variables, lo que puede ser valioso para el análisis exploratorio de datos y la toma de decisiones.
Diagrama Ridgeline - Ridgeline plot
09
Puntos de datos individuales: Cada punto en el gráfico representa una observación o un valor de datos individual. La posición de estos puntos a lo largo del eje (generalmente el eje horizontal) indica el valor de la variable que estás representando. Densidad de puntos: La densidad de puntos en diferentes regiones del gráfico puede dar una idea de la concentración de datos en esas áreas. Donde hay más puntos, la densidad de datos es mayor. Agrupación de datos: Si estás comparando varias categorías o grupos en un strip plot, los puntos se pueden agrupar de manera que puedas ver cómo se distribuyen los datos en cada grupo. Esto puede ayudarte a identificar diferencias o similitudes entre los grupos. Tendencias y patrones: Si se observan patrones o tendencias en la distribución de puntos, como agrupamientos, dispersión, o sesgos, esto puede proporcionar información sobre la naturaleza de los datos y las relaciones entre las variables. Valores atípicos: Los valores atípicos o extremos son fácilmente identificables en un strip plot como puntos que se encuentran aislados o alejados de la mayoría de los datos. Esto puede ayudar en la detección de valores inusuales en el conjunto de datos.
Un strip plot es un tipo de gráfico que se utiliza para visualizar la distribución de datos univariados o para comparar las distribuciones de diferentes grupos de datos. En un strip plot, cada observación de datos se representa como un punto en un eje, generalmente a lo largo de una dimensión específica.
Strip plot - Gráfico de bandas
10
- Mostrar la distribución de datos univariados: Puedes utilizar un gráfico de "beeswarm" para representar la distribución de una sola variable, lo que te permite ver cómo se agrupan y dispersan los datos.
- Comparar la distribución de datos entre grupos: Puedes crear un gráfico de "beeswarm" para comparar la distribución de una variable entre diferentes grupos o categorías, lo que facilita la identificación de patrones y diferencias.
- Visualizar datos categóricos: Los gráficos de "beeswarm" también se utilizan para visualizar la distribución de datos categóricos, lo que puede ser útil en investigaciones de mercado o en el análisis de preferencias de los consumidores.
Este tipo de gráfico se utiliza principalmente para visualizar la distribución de datos de una manera que sea fácil de entender y que evite la superposición excesiva de puntos, lo que a menudo ocurre en gráficos de dispersión tradicionales.
Beeswarm plot - Gráfico de Beeswarm
11
- Resumen visual de datos: El diagrama de tallo y hoja organiza los datos de una manera que permite una rápida identificación de la distribución de los valores. Los datos se dividen en "tallos" (las cifras principales) y "hojas" (las cifras secundarias o decimales), lo que facilita la observación de la concentración de valores alrededor de ciertos rangos.
- Identificación de tendencias: El diagrama de tallo y hoja puede ayudarte a identificar tendencias, como si los datos están sesgados hacia valores más altos o más bajos, o si hay agrupaciones de valores cercanos.
- Detección de valores atípicos: Los valores atípicos (outliers) son valores que se desvían significativamente de la mayoría de los datos. Estos valores a menudo son fáciles de identificar en un diagrama de tallo y hoja, ya que aparecen como hojas solitarias que se desvían de los otros datos.
- Comparación de datos: Puedes utilizar múltiples diagramas de tallo y hoja para comparar diferentes conjuntos de datos y determinar si hay diferencias significativas en sus distribuciones.
- Análisis descriptivo: El diagrama de tallo y hoja es una herramienta valiosa en el análisis descriptivo de datos, ya que proporciona información sobre la dispersión y la concentración de valores.
- Preparación para otros análisis: Puede servir como una herramienta de exploración inicial antes de realizar análisis estadísticos más avanzados, como el cálculo de estadísticas de resumen, la creación de histogramas o la aplicación de pruebas de hipótesis.
Técnica de visualización de datos utilizada en estadísticas para organizar y presentar conjuntos de datos. Su principal utilidad es proporcionar una representación de la distribución de un conjunto de datos numéricos, lo que facilita la identificación de patrones, tendencias, valores atípicos y la comprensión de la estructura de los datos. Aquí tienes algunas de las utilidades del diagrama de tallo y hoja:
Diagrama de tallo y hoja
12
- (Schwabish, 2021)
- (Datos Abiertos de Colombia, 2023)
- (Tableau Custom Charts- Pareto chart - YouTube, 2023)
- (Tableau Butterfly Chart - YouTube, 2023)
- (Marketwatch - Ecopetrol)
Bibliografía
Got an idea?
Use this space to add awesome interactivity. Include text, images, videos, tables, PDFs... even interactive questions!Premium tip: Get information on how your audience interacts with your creation:
- Visit the Analytics settings;
- Activate user tracking;
- Let the communication flow!