target encoding
01
Riesgo elevado de filtración de datos (data leakage)
02
Librería category_encoders
Riesgo elevado de filtración de datos (data leakage)
Sin embargo, el uso del target encoding conlleva un riesgo elevado de filtración de datos (data leakage). Si simplemente calculamos la media usando todos los datos, el modelo podría "memorizar" el objetivo a través de las categorías, lo que genera un sobreajuste (overfitting) severo donde el modelo funciona perfecto en entrenamiento pero falla en la realidad. Para mitigar esto, los analistas profesionales aplican técnicas de suavizado (smoothing), que mezclan la media de la categoría con la media global del dataset, dando más peso a la media global cuando la categoría tiene muy pocas muestras.
Librería category_encoders
En el ecosistema de Python, la librería category_encoders ofrece la clase TargetEncoder, que facilita enormemente este proceso dentro de un flujo de trabajo profesional. Al igual que con otros transformadores, es imperativo realizar el ajuste con fit únicamente en el conjunto de entrenamiento y aplicar la transformación con transform al de prueba. Una práctica avanzada consiste en utilizar esquemas de validación cruzada (leave-one-out o k-fold target encoding) para asegurar que el valor asignado a una fila no dependa directamente de su propio valor objetivo, rompiendo así el vínculo que causa el sobreajuste.
4.2 Codificación One-Hot Encoding
CESUR
Created on February 4, 2026
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Witchcraft Presentation
View
Sketchbook Presentation
View
Vaporwave presentation
View
Animated Sketch Presentation
View
Pechakucha Presentation
View
Decades Presentation
View
Color and Shapes Presentation
Explore all templates
Transcript
target encoding
01
Riesgo elevado de filtración de datos (data leakage)
02
Librería category_encoders
Riesgo elevado de filtración de datos (data leakage)
Sin embargo, el uso del target encoding conlleva un riesgo elevado de filtración de datos (data leakage). Si simplemente calculamos la media usando todos los datos, el modelo podría "memorizar" el objetivo a través de las categorías, lo que genera un sobreajuste (overfitting) severo donde el modelo funciona perfecto en entrenamiento pero falla en la realidad. Para mitigar esto, los analistas profesionales aplican técnicas de suavizado (smoothing), que mezclan la media de la categoría con la media global del dataset, dando más peso a la media global cuando la categoría tiene muy pocas muestras.
Librería category_encoders
En el ecosistema de Python, la librería category_encoders ofrece la clase TargetEncoder, que facilita enormemente este proceso dentro de un flujo de trabajo profesional. Al igual que con otros transformadores, es imperativo realizar el ajuste con fit únicamente en el conjunto de entrenamiento y aplicar la transformación con transform al de prueba. Una práctica avanzada consiste en utilizar esquemas de validación cruzada (leave-one-out o k-fold target encoding) para asegurar que el valor asignado a una fila no dependa directamente de su propio valor objetivo, rompiendo así el vínculo que causa el sobreajuste.