Data science programming
Introducción a los formatos de almacenamiento de datos (CSV, JSON, HDF5) y técnicas de carga de datos.
CONTENIDO
¿Qué aprenderás?
Introducción
Formato CSV (valores separados por comas)
JSON (JavaScript Object Notation)
HDF5 (Hierarchical Data Format Versión 5)
Formatos y Elección Basada en Requisitos del Proyecto.
Afianzando lo aprendido
Bibliografía
Créditos
Al finalizar este recurso educativo afianzarás tus conocimientos sobre los formatos de almacenamiento de datos más utilizados (CSV, JSON y HDF5), su estructura, características y técnicas de carga, comprendiendo su importancia para garantizar la accesibilidad, consistencia y flexibilidad en la gestión de la información.
Introducción
Manejar de manera eficiente los formatos de almacenamiento es uno de los aspectos más significativos para garantizar accesibilidad, consistencia y flexibilidad de los datos; tres de los formatos más utilizados para el almacenamiento y transferencia de datos son CSV, JSON y HDF54.
Formato CSV (valores separados por comas).
CSV por sus siglas en inglés Comma separed values, es uno de los formatos más utilizados por su sencillez y compatibilidad con la mayoría de las herramientas de análisis de datos. Su estructura permite presentar datos tabulares.
Formato CSV (valores separados por comas).
“El formato CSV es ideal para almacenar datos estructurados de manera simple y efectiva, facilitando su uso en diferentes plataformas” (Demirbaga, Aujla, Jindal, & Kalyon, 2019).
Formato CSV (valores separados por comas).
Pese a su versatilidad, el formato es limitado cuando se trata de información jerárquica o semiestructurada. Para cargar este tipo de formatos en Python se usa, principalmente, algunas de las funciones de la librería de Pandas.
Ejercicio CSV
Pasos para el ejercicio de CSV:
Haz click en cada botón
Paso 1 Lectura del Archivo CSV
Resultado
Haz click en el botón
Paso 2 Filtrado y Operación de Datos
Resultado
Haz click en el botón
Paso 3 Agregaremos una nueva columna, esta columna indica si es o no mayor de edad
Resultado
Haz click en el botón
Paso 4 Exportar el Nuevo Data Frame
JSON (JavaScript Object Notation).
Este formato resalta por su flexibilidad para la presentación de datos semiestructurados y anidados, como aquellos generados a partir de APIs o integraciones con aplicaciones web, “JSON facilita la representación de datos complejos a través de su estructura de pares clave-valor,
JSON (JavaScript Object Notation).
Esto permite almacenar y compartir información en un formato que es fácil de leer y escribir tanto para humanos como para máquinas” Para cargar archivos JSON usamos la librería json, o pandas con la función read_json().
JSON (JavaScript Object Notation).
Pasos para el ejercicio JSON:
Haz click en cada botón
Paso 1 Lectura del Archivo CSV
Resultado
Haz click en el botón
Paso 2 Convertir data_json en un Data Frame de Pandas
Resultado
Haz click en el botón
Paso 3 Evaluación de datos, obtener listas de ciudades únicas y contar personas en cada ciudad
Resultado
Haz click en el botón
HDF5 (Hierarchical Data Format Versión 5)
Este formato se destaca por el almacenamiento de grandes volúmenes de datos y la gestión de información con estructuras jerárquicas complejas, “HDF5 permite almacenar datos en un formato altamente comprimido y optimizado para el acceso paralelo, lo que lo convierte en una herramienta poderosa para manejar datasets de gran tamaño en entornos científicos y de investigación”
HDF5 (Hierarchical Data Format Versión 5)
En Python, las librerías h5py y pandas ofrecen características particulares para manejar estos archivos.
HDF5 (Hierarchical Data Format Versión 5)
Pasos para el ejercicio HDF5:
Haz click en cada botón
Paso 1 Cargar y Explorar el Archivo HDF5
Resultado
Haz click en el botón
Paso 2 Convertir los Datos a un Data Frame
Resultado
Haz click en el botón
Paso 3 Realizar Análisis de Datos
Resultado
Haz click en el botón
Formatos y Elección Basada en Requisitos del Proyecto.
Cada formato posee características que lo hace adecuado para ciertas aplicaciones: en CSV se almacenan datos simples y estructurados; en JSON información anidada y datos semiestructurados con un enfoque principal en aplicaciones web; finalmente en HDF5 trabajamos proyectos de Big Data que requieren optimización y eficiencia en su almacenamiento.
Formatos y Elección Basada en Requisitos del Proyecto.
“El formato adecuado puede mejorar significativamente el rendimiento del análisis y la accesibilidad de la información, lo que se traduce en resultados más rápidos y precisos” (Fortner, 2018).
Formatos y Elección Basada en Requisitos del Proyecto.
A continuación, se presenta un esquema que compara los formatos CSV, JSON y HDF5 basado en sus características principales y un ejemplo de uso para cada uno.
Haz click en el botón
Afianzando lo aprendido
Ha llegado el momento de validar lo aprendido. Reta tus conocimientos realizando la siguiente actividad. ¡Lo harás muy bien!
Afianzando lo aprendido
Bibliografía
Fortner, B. (2018). The Data Handbook. Springer.
Créditos
Joshua David De La Pava Roys Nidia Zoraida Nieto Hernández Nevardo López Medina
- Edición, Diseño y Desarrollo:
Campus Virtual USTA – Tunja
- Imágenes de Uso Gratuito Tomadas de:
https://www.freepik.es/home
Freepik -
https://www.flaticon.es/
Flaticon -
Felicitaciones
¡Muy Bien! Finalizaste el contenido de este recurso educativo. Sigue adelante desarrollando las actividades y recursos de esta sección.
DataFrame generado a partir de HDF5:
Ciudades únicas: ['Bogotá' 'Medellín' 'Cali' 'Barranquilla' 'Cartagena']
Número de personas por ciudad:
Esquema de Formatos CSV, JSON y HDF5
Nota. Elaboración Propia
Personas mayores de 30 años:
Edad promedio de las personas: 34.6
Primeras filas del DataFrame CSV:
DataFrame generado a partir del JSON:
La persona con la mayor edad es:
Contenido del archivo JSON:
DataFrame con columna de Mayor de Edad:
Introducción a los formatos de almacenamiento de datos (CSV, JSON, HDF
Juan Manuel Malaver Echeverría
Created on October 9, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
View
SWOT Challenge: Classify Key Factors
View
Vision Board
View
Explainer Video: Keys to Effective Communication
View
Explainer Video: AI for Companies
View
Corporate CV
View
Flow Presentation
View
Discover Your AI Assistant
Explore all templates
Transcript
Data science programming
Introducción a los formatos de almacenamiento de datos (CSV, JSON, HDF5) y técnicas de carga de datos.
CONTENIDO
¿Qué aprenderás?
Introducción
Formato CSV (valores separados por comas)
JSON (JavaScript Object Notation)
HDF5 (Hierarchical Data Format Versión 5)
Formatos y Elección Basada en Requisitos del Proyecto.
Afianzando lo aprendido
Bibliografía
Créditos
Al finalizar este recurso educativo afianzarás tus conocimientos sobre los formatos de almacenamiento de datos más utilizados (CSV, JSON y HDF5), su estructura, características y técnicas de carga, comprendiendo su importancia para garantizar la accesibilidad, consistencia y flexibilidad en la gestión de la información.
Introducción
Manejar de manera eficiente los formatos de almacenamiento es uno de los aspectos más significativos para garantizar accesibilidad, consistencia y flexibilidad de los datos; tres de los formatos más utilizados para el almacenamiento y transferencia de datos son CSV, JSON y HDF54.
Formato CSV (valores separados por comas).
CSV por sus siglas en inglés Comma separed values, es uno de los formatos más utilizados por su sencillez y compatibilidad con la mayoría de las herramientas de análisis de datos. Su estructura permite presentar datos tabulares.
Formato CSV (valores separados por comas).
“El formato CSV es ideal para almacenar datos estructurados de manera simple y efectiva, facilitando su uso en diferentes plataformas” (Demirbaga, Aujla, Jindal, & Kalyon, 2019).
Formato CSV (valores separados por comas).
Pese a su versatilidad, el formato es limitado cuando se trata de información jerárquica o semiestructurada. Para cargar este tipo de formatos en Python se usa, principalmente, algunas de las funciones de la librería de Pandas.
Ejercicio CSV
Pasos para el ejercicio de CSV:
Haz click en cada botón
Paso 1 Lectura del Archivo CSV
Resultado
Haz click en el botón
Paso 2 Filtrado y Operación de Datos
Resultado
Haz click en el botón
Paso 3 Agregaremos una nueva columna, esta columna indica si es o no mayor de edad
Resultado
Haz click en el botón
Paso 4 Exportar el Nuevo Data Frame
JSON (JavaScript Object Notation).
Este formato resalta por su flexibilidad para la presentación de datos semiestructurados y anidados, como aquellos generados a partir de APIs o integraciones con aplicaciones web, “JSON facilita la representación de datos complejos a través de su estructura de pares clave-valor,
JSON (JavaScript Object Notation).
Esto permite almacenar y compartir información en un formato que es fácil de leer y escribir tanto para humanos como para máquinas” Para cargar archivos JSON usamos la librería json, o pandas con la función read_json().
JSON (JavaScript Object Notation).
Pasos para el ejercicio JSON:
Haz click en cada botón
Paso 1 Lectura del Archivo CSV
Resultado
Haz click en el botón
Paso 2 Convertir data_json en un Data Frame de Pandas
Resultado
Haz click en el botón
Paso 3 Evaluación de datos, obtener listas de ciudades únicas y contar personas en cada ciudad
Resultado
Haz click en el botón
HDF5 (Hierarchical Data Format Versión 5)
Este formato se destaca por el almacenamiento de grandes volúmenes de datos y la gestión de información con estructuras jerárquicas complejas, “HDF5 permite almacenar datos en un formato altamente comprimido y optimizado para el acceso paralelo, lo que lo convierte en una herramienta poderosa para manejar datasets de gran tamaño en entornos científicos y de investigación”
HDF5 (Hierarchical Data Format Versión 5)
En Python, las librerías h5py y pandas ofrecen características particulares para manejar estos archivos.
HDF5 (Hierarchical Data Format Versión 5)
Pasos para el ejercicio HDF5:
Haz click en cada botón
Paso 1 Cargar y Explorar el Archivo HDF5
Resultado
Haz click en el botón
Paso 2 Convertir los Datos a un Data Frame
Resultado
Haz click en el botón
Paso 3 Realizar Análisis de Datos
Resultado
Haz click en el botón
Formatos y Elección Basada en Requisitos del Proyecto.
Cada formato posee características que lo hace adecuado para ciertas aplicaciones: en CSV se almacenan datos simples y estructurados; en JSON información anidada y datos semiestructurados con un enfoque principal en aplicaciones web; finalmente en HDF5 trabajamos proyectos de Big Data que requieren optimización y eficiencia en su almacenamiento.
Formatos y Elección Basada en Requisitos del Proyecto.
“El formato adecuado puede mejorar significativamente el rendimiento del análisis y la accesibilidad de la información, lo que se traduce en resultados más rápidos y precisos” (Fortner, 2018).
Formatos y Elección Basada en Requisitos del Proyecto.
A continuación, se presenta un esquema que compara los formatos CSV, JSON y HDF5 basado en sus características principales y un ejemplo de uso para cada uno.
Haz click en el botón
Afianzando lo aprendido
Ha llegado el momento de validar lo aprendido. Reta tus conocimientos realizando la siguiente actividad. ¡Lo harás muy bien!
Afianzando lo aprendido
Bibliografía
Fortner, B. (2018). The Data Handbook. Springer.
Créditos
Joshua David De La Pava Roys Nidia Zoraida Nieto Hernández Nevardo López Medina
Campus Virtual USTA – Tunja
https://www.freepik.es/home
Freepik -
https://www.flaticon.es/
Flaticon -
Felicitaciones
¡Muy Bien! Finalizaste el contenido de este recurso educativo. Sigue adelante desarrollando las actividades y recursos de esta sección.
DataFrame generado a partir de HDF5:
Ciudades únicas: ['Bogotá' 'Medellín' 'Cali' 'Barranquilla' 'Cartagena']
Número de personas por ciudad:
Esquema de Formatos CSV, JSON y HDF5
Nota. Elaboración Propia
Personas mayores de 30 años:
Edad promedio de las personas: 34.6
Primeras filas del DataFrame CSV:
DataFrame generado a partir del JSON:
La persona con la mayor edad es:
Contenido del archivo JSON:
DataFrame con columna de Mayor de Edad: