Want to create interactive content? It’s easy in Genially!

Get started free

021-25-G1-M2-S5-Limpieza de datos con Julius

IEFPI

Created on October 28, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

Explainer Video: Keys to Effective Communication

Explainer Video: AI for Companies

Corporate CV

Flow Presentation

Discover Your AI Assistant

Urban Illustrated Presentation

Geographical Challenge: Drag to the map

Transcript

Imágenes

Gmail

Google

Limpieza de datos con Julius

Voy a tener suerte

Buscar con Google

Ofrecido por Google en: Español (Latinoamérica)

Google

Limpieza de datos con Julius

Más

Todo

Imágenes

Videos

Shooping

Noticias

Libros

Herramientas

Limpieza de datos con Julius

La limpieza de datos es la fase de acción tras la validación: eliminar duplicados o registros erróneos, tratar valores atípicos (ajustarlos o ...

Eliminación de casos duplicados e incongruentes

Eliminación de duplicados: Tras identificar los casos duplicados (como hicimos en 4.1.1), usualmente la acción a tomar es eliminar las filas duplicadas redundantes ...

Tratamiento de valores atípicos

Para los valores atípicos identificados, tenemos varias estrategias de tratamiento. No siempre la respuesta es eliminarlos ...

Tratamiento de valores perdidos

Llegamos a uno de los pasos más delicados: cómo manejar los valores perdidos. A diferencia de duplicados ...

Goooooogle >

Anterior

...

Limpieza de datos con Julius

  • Una vez validados los datos e identificados los problemas, pasamos a la acción: la limpieza de datos. Esto implica tomar decisiones y aplicar medidas concretas para corregir o mitigar los problemas detectados: remover duplicados o registros obviamente erróneos, ajustar o eliminar valores atípicos, y tratar los valores perdidos ya sea eliminándolos o imputándolos (rellenándolos) de manera adecuada.
  • Julius puede ayudar a automatizar muchas de estas tareas. Por ejemplo, tras identificar duplicados, podemos indicarle que los elimine; podemos pedirle que elimine o marque outliers según criterios; y para missings, Julius incluso puede sugerir métodos de imputación o aplicar uno que le indiquemos. Es importante destacar que la limpieza debe hacerse con cuidado para no introducir nuevos sesgos: siempre que eliminamos o modificamos datos debemos tener justificación.
A continuación, cubriremos cada aspecto de la limpieza correspondiente a los problemas mencionados:

Eliminación de casos duplicados e incongruentes

  • Eliminación de duplicados: La eliminación de duplicados consiste en borrar registros redundantes, conservando una sola instancia por entidad. Con Julius, basta indicar: “Elimina casos duplicados conservando solo el primero” o “Identifica y elimina duplicados basados en la columna ID”. Antes de borrar, es esencial verificar que sean duplicados reales y no registros válidos (como el mismo cliente con distintas fechas de compra). El criterio común es eliminar duplicados exactos en todas las variables o en la clave principal cuando el resto de los datos coincide.
  • Casos incongruentes: Los casos incongruentes son registros con datos imposibles o lógicamente incoherentes, como un paciente masculino embarazado o fechas invertidas (alta anterior al ingreso). Suelen indicar errores de registro. Si es posible, se corrige el campo erróneo; si no, se elimina el caso para evitar distorsionar el análisis. Julius puede ayudar a filtrar incongruencias con instrucciones como: “Filtra casos donde Edad < 10 y NivelEstudios = 'Universidad'” o “Encuentra casos donde sexo='M' y embarazo='Sí'”. Una vez identificados, estos registros deben revisarse o eliminarse según la gravedad y la disponibilidad de datos confiables.

Tratamiento de valores atípicos

El tratamiento de valores atípicos depende de si el outlier es un error o un dato válido extremo y de su impacto en el análisis. Estrategias principales:

  • Eliminar el outlier: cuando hay evidencia clara de error o distorsiona gravemente el análisis.
  • Conservarlo usando métodos robustos: aplicar medianas, pruebas no paramétricas o comparar resultados con y sin el outlier.
  • Winsorización o recorte: reemplazar el valor extremo por un límite razonable (por ejemplo, el percentil 99).
  • Transformar la variable: aplicar logaritmos o raíces para reducir la influencia de valores muy altos o asimétricos.
  • Investigar y corregir: revisar la causa del outlier; si es error de captura, corregirlo; si es un caso especial, analizarlo por separado.

Tratamiento de valores perdidos

Llegamos a uno de los pasos más delicados: cómo manejar los valores perdidos. A diferencia de duplicados (que se suelen eliminar) o outliers (que a veces se eliminan o transforman), los valores faltantes requieren decidir si se eliminan los casos/variables faltantes o si se rellenan/imputan de alguna manera, y en cada caso, justificar la decisión. También es útil diferenciar el tipo de missing (sistémico vs al azar, como ya discutimos) para elegir la técnica adecuada. Dividiremos esta sección en subtemas específicos:

  • Ejemplo: En la base de transacciones contables, detectamos la factura #1001 repetida. Confirmamos que es un duplicado (mismos campos). Con Julius: "Elimina los registros duplicados de factura #1001" o más general "Elimina duplicados completos de la base". Después conviene verificar: "Cuenta de registros antes y después de eliminar duplicados" para confirmar cuántos se eliminaron.
  • Ejemplo: En la encuesta de psicología, vimos participante ID 203 duplicado. Decidimos conservar la primera entrada y eliminar la segunda. Julius: "Para los IDs repetidos, mantener el primer caso y eliminar los demás". Esto se puede hacer con una sola instrucción basada en ordenar por alguna variable temporal si fuera relevante, o simplemente en el orden del archivo.
  • Ejemplo (medicina): Dos registros de pacientes tienen fecha de nacimiento 2050, claramente mal. No sabemos la fecha real, así que optamos por eliminar esos casos del análisis ya que no confiamos en sus datos. Julius: "Elimina casos donde fecha_nacimiento > hoy()" (o similar).
  • Ejemplo (biología): Un espécimen aparece con localización fuera del rango posible (e.g., coordenadas geográficas erróneas). Quizás descartamos ese registro si no podemos rescatar la info correcta.

En distintos campos, los outliers pueden tratarse según su contexto y confiabilidad.

  • En medicina, un valor imposible (p. ej., triglicéridos de 5000 mg/dL) se excluye del análisis y se documenta.
  • En marketing, una compra de $50,000 puede eliminarse del promedio general, pero analizarse aparte como caso especial.
  • En psicología, puntajes por encima del máximo teórico (>200) se corrigen o recodifican (winsorización).
  • En ingeniería química, un pico anómalo de presión por error del sensor puede eliminarse o interpolarse. Julius facilita estas acciones mediante comandos como “Filtra fuera el caso con ID X” o “Si puntaje > 200, asignar 200”.