Want to make creations as awesome as this one?

Transcript

Iniciamos con la estadística descriptiva. Ya has visto este tema en otros contextos, por ejemplo Tablau para visualización de datos, tal vez cuando aprendiste el lenguaje R o tal vez cuando aprendiste Python y Scikit-Learn. En este tema no vamos a repetir los conceptos, pero te diremos cómo hacerlo en pySpark. Vamos a suponer que has instalado Spark en un cuaderno de Google Colab y que lo has detectado y que has iniciado una sesión Spark. Vamos a suponer también que has montado el sistema de archivos del Google Drive.

SUBTEMA 1.1: Análisis estadístico numérico

El análisis exploratorio de datos permite ver el tamaño y las características de los datos. Si los datos son muy variables, todas nuestras suposiciones de normalidad ya no se aplican. O si los datos tienen muchos valores extremos, estos pueden dominar al resto de los valores normales y hacer que los modelos sean muy inexactos. Ahora veremos como realizar un análisis exploratorio de datos en pySpark.

Ahora leamos el archivo de datos “daily_weather.csv”. En el código de abajo como comentario ponemos varias formas de llevar a cabo este lectura:

Ahora vemos a seguir haciendo más gráficas al pasar a la siguiente sección en la que haremos una exploración gráfica de los datos. Pero antes reflexiona,

Reflexiona

Plataformas y máquinas inteligentes en big data

¿Cómo te podría ayudar el análisis exploratorio de datos numérico en el proyecto que estás planeando hacer en tu organización?