Want to create interactive content? It’s easy in Genially!

Get started free

2.5 Validación post-limpieza

CESUR

Created on February 2, 2026

Start designing with a free template

Discover more than 1500 professional designs like these:

Puzzle Diagram

Gear Diagram

Square Timeline Diagram

Timeline Diagram

Timeline Diagram 3

Timeline Diagram 4

Timeline Diagram 2

Transcript

Comparación de estadísticas descriptivas

La primera línea de defensa es la comparación de estadísticas descriptivas. Al aplicar la función describe() tanto al dataset original como al limpio, podemos detectar cambios sospechosos. Si la media de una variable se ha desplazado drásticamente sin que hayamos eliminado outliers de forma intencionada, es una señal de alerta: quizá una operación de filtrado borró registros que no debía. Esta comparativa debe incluir siempre el conteo de filas y columnas para confirmar que las eliminaciones coinciden exactamente con lo que habíamos planeado.

Verificación de la integridad lógica

Un aspecto crítico es la verificación de la integridad lógica. Tras la limpieza, debemos someter al dataset a pruebas de estrés mediante funciones de validación. Es el momento de confirmar que, en todos los registros, la fecha de fin es posterior a la de inicio o que los precios totales coinciden con la multiplicación de unidades por precio unitario. Usar sentencias assert en Python es una práctica excelente para automatizar esto; por ejemplo, un assert df['porcentaje'].between(0, 100).all() detendrá la ejecución si existe un solo valor fuera de rango, obligándonos a revisar el proceso antes de seguir. Paradójicamente, la limpieza puede generar nuevos valores nulos. Esto ocurre frecuentemente al usar funciones como pd.to_numeric() con el parámetro errors='coerce', que transforma cualquier texto mal formado en un NaN. Por ello, es obligatorio ejecutar un nuevo isnull().sum() y compararlo con el recuento inicial. Si aparecen nulos inesperados, debemos investigar si son un efecto secundario aceptable de la estandarización o si hemos perdido información valiosa por una conversión demasiado agresiva.

Validación de tipos de datos

La validación de tipos de datos es el paso donde confirmamos que cada columna tiene el formato adecuado para el análisis. Con el método info(), comprobamos que las variables que deben ser numéricas no hayan quedado como tipo object y que las fechas sean efectivamente objetos datetime. Si una columna que debería ser numérica sigue apareciendo como texto, significa que aún persisten caracteres no deseados que bloquean la conversión.

Documentación de transformaciones

Finalmente, la documentación de transformaciones es lo que separa a un aficionado de un profesional. Debemos registrar no solo qué hicimos, sino por qué lo hicimos y cuál fue el resultado. Mantener siempre una copia del dataset original es la red de seguridad que nos permite volver atrás si detectamos que una regla de limpieza fue demasiado estricta. Lo ideal es generar un informe que combine tablas comparativas y visualizaciones de las distribuciones antes y después, asegurando que el proceso sea totalmente transparente y reproducible para cualquier otro miembro del equipo.