Want to create interactive content? It’s easy in Genially!

Get started free

4.2 Codificación One-Hot Encoding

CESUR

Created on February 4, 2026

Start designing with a free template

Discover more than 1500 professional designs like these:

Witchcraft Presentation

Sketchbook Presentation

Vaporwave presentation

Animated Sketch Presentation

Pechakucha Presentation

Decades Presentation

Color and Shapes Presentation

Transcript

target encoding

01

Riesgo elevado de filtración de datos (data leakage)

02

Librería category_encoders

Riesgo elevado de filtración de datos (data leakage)

Sin embargo, el uso del target encoding conlleva un riesgo elevado de filtración de datos (data leakage). Si simplemente calculamos la media usando todos los datos, el modelo podría "memorizar" el objetivo a través de las categorías, lo que genera un sobreajuste (overfitting) severo donde el modelo funciona perfecto en entrenamiento pero falla en la realidad. Para mitigar esto, los analistas profesionales aplican técnicas de suavizado (smoothing), que mezclan la media de la categoría con la media global del dataset, dando más peso a la media global cuando la categoría tiene muy pocas muestras.

Librería category_encoders

En el ecosistema de Python, la librería category_encoders ofrece la clase TargetEncoder, que facilita enormemente este proceso dentro de un flujo de trabajo profesional. Al igual que con otros transformadores, es imperativo realizar el ajuste con fit únicamente en el conjunto de entrenamiento y aplicar la transformación con transform al de prueba. Una práctica avanzada consiste en utilizar esquemas de validación cruzada (leave-one-out o k-fold target encoding) para asegurar que el valor asignado a una fila no dependa directamente de su propio valor objetivo, rompiendo así el vínculo que causa el sobreajuste.