copia DSA10-04GEN Análisis estadístico numérico
jept
Created on September 2, 2024
More creations to inspire you
SLYCE DECK
Personalized
LET’S GO TO LONDON!
Personalized
ENERGY KEY ACHIEVEMENTS
Personalized
HUMAN AND SOCIAL DEVELOPMENT KEY
Personalized
CULTURAL HERITAGE AND ART KEY ACHIEVEMENTS
Personalized
DOWNFALLL OF ARAB RULE IN AL-ANDALUS
Personalized
ABOUT THE EEA GRANTS AND NORWAY
Personalized
Transcript
Iniciamos con la estadística descriptiva. Ya has visto este tema en otros contextos, por ejemplo Tablau para visualización de datos, tal vez cuando aprendiste el lenguaje R o tal vez cuando aprendiste Python y Scikit-Learn. En este tema no vamos a repetir los conceptos, pero te diremos cómo hacerlo en pySpark. Vamos a suponer que has instalado Spark en un cuaderno de Google Colab y que lo has detectado y que has iniciado una sesión Spark. Vamos a suponer también que has montado el sistema de archivos del Google Drive.
SUBTEMA 1.1: Análisis estadístico numérico
El análisis exploratorio de datos permite ver el tamaño y las características de los datos. Si los datos son muy variables, todas nuestras suposiciones de normalidad ya no se aplican. O si los datos tienen muchos valores extremos, estos pueden dominar al resto de los valores normales y hacer que los modelos sean muy inexactos. Ahora veremos como realizar un análisis exploratorio de datos en pySpark.
Ahora leamos el archivo de datos “daily_weather.csv”. En el código de abajo como comentario ponemos varias formas de llevar a cabo este lectura:
Ahora vemos a seguir haciendo más gráficas al pasar a la siguiente sección en la que haremos una exploración gráfica de los datos. Pero antes reflexiona,
Reflexiona
Plataformas y máquinas inteligentes en big data
¿Cómo te podría ayudar el análisis exploratorio de datos numérico en el proyecto que estás planeando hacer en tu organización?