Want to create interactive content? It’s easy in Genially!

Get started free

Introducción a los formatos de almacenamiento de datos (CSV, JSON, HDF

Juan Manuel Malaver Echeverría

Created on October 9, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

SWOT Challenge: Classify Key Factors

Vision Board

Explainer Video: Keys to Effective Communication

Explainer Video: AI for Companies

Corporate CV

Flow Presentation

Discover Your AI Assistant

Transcript

Data science programming

Introducción a los formatos de almacenamiento de datos (CSV, JSON, HDF5) y técnicas de carga de datos.

CONTENIDO

¿Qué aprenderás?
Introducción
Formato CSV (valores separados por comas)
JSON (JavaScript Object Notation)
HDF5 (Hierarchical Data Format Versión 5)
Formatos y Elección Basada en Requisitos del Proyecto.
Afianzando lo aprendido
Bibliografía
Créditos

Al finalizar este recurso educativo afianzarás tus conocimientos sobre los formatos de almacenamiento de datos más utilizados (CSV, JSON y HDF5), su estructura, características y técnicas de carga, comprendiendo su importancia para garantizar la accesibilidad, consistencia y flexibilidad en la gestión de la información.

Introducción

Manejar de manera eficiente los formatos de almacenamiento es uno de los aspectos más significativos para garantizar accesibilidad, consistencia y flexibilidad de los datos; tres de los formatos más utilizados para el almacenamiento y transferencia de datos son CSV, JSON y HDF54.

Formato CSV (valores separados por comas).

CSV por sus siglas en inglés Comma separed values, es uno de los formatos más utilizados por su sencillez y compatibilidad con la mayoría de las herramientas de análisis de datos. Su estructura permite presentar datos tabulares.

Formato CSV (valores separados por comas).

“El formato CSV es ideal para almacenar datos estructurados de manera simple y efectiva, facilitando su uso en diferentes plataformas” (Demirbaga, Aujla, Jindal, & Kalyon, 2019).

Formato CSV (valores separados por comas).

Pese a su versatilidad, el formato es limitado cuando se trata de información jerárquica o semiestructurada. Para cargar este tipo de formatos en Python se usa, principalmente, algunas de las funciones de la librería de Pandas.

Ejercicio CSV

Pasos para el ejercicio de CSV:

Haz click en cada botón

Paso 1 Lectura del Archivo CSV

Resultado

Haz click en el botón

Paso 2 Filtrado y Operación de Datos

Resultado

Haz click en el botón

Paso 3 Agregaremos una nueva columna, esta columna indica si es o no mayor de edad

Resultado

Haz click en el botón

Paso 4 Exportar el Nuevo Data Frame

JSON (JavaScript Object Notation).

Este formato resalta por su flexibilidad para la presentación de datos semiestructurados y anidados, como aquellos generados a partir de APIs o integraciones con aplicaciones web, “JSON facilita la representación de datos complejos a través de su estructura de pares clave-valor,

JSON (JavaScript Object Notation).

Esto permite almacenar y compartir información en un formato que es fácil de leer y escribir tanto para humanos como para máquinas” Para cargar archivos JSON usamos la librería json, o pandas con la función read_json().

JSON (JavaScript Object Notation).

Pasos para el ejercicio JSON:

Haz click en cada botón

Paso 1 Lectura del Archivo CSV

Resultado

Haz click en el botón

Paso 2 Convertir data_json en un Data Frame de Pandas

Resultado

Haz click en el botón

Paso 3 Evaluación de datos, obtener listas de ciudades únicas y contar personas en cada ciudad

Resultado

Haz click en el botón

HDF5 (Hierarchical Data Format Versión 5)

Este formato se destaca por el almacenamiento de grandes volúmenes de datos y la gestión de información con estructuras jerárquicas complejas, “HDF5 permite almacenar datos en un formato altamente comprimido y optimizado para el acceso paralelo, lo que lo convierte en una herramienta poderosa para manejar datasets de gran tamaño en entornos científicos y de investigación”

HDF5 (Hierarchical Data Format Versión 5)

En Python, las librerías h5py y pandas ofrecen características particulares para manejar estos archivos.

HDF5 (Hierarchical Data Format Versión 5)

Pasos para el ejercicio HDF5:

Haz click en cada botón

Paso 1 Cargar y Explorar el Archivo HDF5

Resultado

Haz click en el botón

Paso 2 Convertir los Datos a un Data Frame

Resultado

Haz click en el botón

Paso 3 Realizar Análisis de Datos

Resultado

Haz click en el botón

Formatos y Elección Basada en Requisitos del Proyecto.

Cada formato posee características que lo hace adecuado para ciertas aplicaciones: en CSV se almacenan datos simples y estructurados; en JSON información anidada y datos semiestructurados con un enfoque principal en aplicaciones web; finalmente en HDF5 trabajamos proyectos de Big Data que requieren optimización y eficiencia en su almacenamiento.

Formatos y Elección Basada en Requisitos del Proyecto.

“El formato adecuado puede mejorar significativamente el rendimiento del análisis y la accesibilidad de la información, lo que se traduce en resultados más rápidos y precisos” (Fortner, 2018).

Formatos y Elección Basada en Requisitos del Proyecto.

A continuación, se presenta un esquema que compara los formatos CSV, JSON y HDF5 basado en sus características principales y un ejemplo de uso para cada uno.

Haz click en el botón

Afianzando lo aprendido

Ha llegado el momento de validar lo aprendido. Reta tus conocimientos realizando la siguiente actividad. ¡Lo harás muy bien! ​

Afianzando lo aprendido

Bibliografía

Fortner, B. (2018). The Data Handbook. Springer.

Créditos

  • Autores Disciplinares:

Joshua David De La Pava Roys Nidia Zoraida Nieto Hernández Nevardo López Medina

  • Edición, Diseño y Desarrollo:

Campus Virtual USTA – Tunja

  • Imágenes de Uso Gratuito Tomadas de:

https://www.freepik.es/home​

Freepik -

https://www.flaticon.es/

Flaticon -

Felicitaciones

¡Muy Bien! Finalizaste el contenido de este recurso educativo. Sigue adelante desarrollando las actividades y recursos de esta sección.

DataFrame generado a partir de HDF5:
Ciudades únicas: ['Bogotá' 'Medellín' 'Cali' 'Barranquilla' 'Cartagena']

Número de personas por ciudad:

Esquema de Formatos CSV, JSON y HDF5

Nota. Elaboración Propia

Personas mayores de 30 años:

Edad promedio de las personas: 34.6

Primeras filas del DataFrame CSV:
DataFrame generado a partir del JSON:
La persona con la mayor edad es:
Contenido del archivo JSON:

DataFrame con columna de Mayor de Edad: