Want to create interactive content? It’s easy in Genially!

Get started free

3.4 Selección de técnica según el problema

CESUR

Created on February 2, 2026

Start designing with a free template

Discover more than 1500 professional designs like these:

Discover Your AI Assistant

Urban Illustrated Presentation

Geographical Challenge: Drag to the map

Decisions and Behaviors in the Workplace

Tangram Game

Process Flow: Corporate Recruitment

Weekly Corporate Challenge

Transcript

Selección de técnica según el problema

Interpretabilidad

Algoritmos basados en distancias

Outliers

Algoritmos basados en árboles

Modelos lineales

Redes neuronales

Distribución de los datos

Interpretabilidad

La interpretabilidad debe considerarse en contextos donde los resultados deben comunicarse a stakeholders no técnicos. La normalización Min-Max produce valores en [0,1] que pueden interpretarse intuitivamente como porcentajes o proporciones. La estandarización Z-score requiere explicar el concepto de desviaciones estándar, aunque facilita la comparación de importancia relativa entre variables. Las transformaciones logarítmicas introducen interpretaciones multiplicativas que pueden resultar contraintuitivas para audiencias sin formación estadística.

Redes neuronales

Las redes neuronales presentan requisitos específicos que dependen de la arquitectura y funciones de activación empleadas. Las funciones sigmoide y tanh operan óptimamente cuando las entradas están en rangos específicos: sigmoide prefiere [0,1] (normalización Min-Max), mientras que tanh funciona mejor con [-1,1] (estandarización o Min-Max con feature_range=(-1,1)). Las funciones ReLU son más tolerantes, aunque la estandarización suele proporcionar mejor estabilidad durante el entrenamiento al mantener las activaciones en rangos donde los gradientes no se desvanecen.

Outliers

La presencia de outliers en los datos orienta fuertemente la decisión. La normalización Min-Max es extremadamente sensible a valores atípicos: un único outlier puede comprimir el 99% de los datos en un rango muy estrecho. En estos casos, la estandarización Z-score ofrece mayor robustez, aunque tampoco es inmune. Para datos con outliers severos, técnicas como RobustScaler (que utiliza la mediana y el rango intercuartílico en lugar de media y desviación estándar) o transformaciones logarítmicas previas al escalado proporcionan soluciones más efectivas.

Distribución de los datos

La distribución de los datos constituye otro factor determinante. Cuando las variables presentan distribuciones aproximadamente normales, la estandarización Z-score resulta natural y preserva la estructura estadística. Para distribuciones uniformes o acotadas naturalmente, Min-Max puede ser más apropiada. Distribuciones fuertemente asimétricas requieren transformaciones no lineales (logarítmica, Box-Cox) antes o en lugar del escalado lineal, especialmente si el algoritmo asume normalidad o si se busca estabilizar la varianza.

Algoritmos basados en árboles

Los algoritmos basados en árboles (árboles de decisión, random forest, gradient boosting) constituyen una excepción notable: son invariantes al escalado monotónico de las variables. Estos algoritmos toman decisiones basadas en umbrales de división que no se ven afectados por transformaciones lineales. Por tanto, aplicar escalado a datos destinados exclusivamente a modelos de árbol no aporta beneficio y puede incluso dificultar la interpretación. Sin embargo, si se planea ensamblar árboles con otros algoritmos, el escalado puede ser necesario.

Modelos lineales

Los modelos lineales (regresión lineal, regresión logística, regresión ridge y lasso) presentan comportamientos diferenciados. La regresión lineal simple sin regularización es invariante al escalado en términos de predicciones, aunque la estandarización facilita la convergencia del optimizador y la interpretación de coeficientes. Sin embargo, en modelos con regularización L1 o L2, el escalado resulta crítico: la penalización se aplica a los coeficientes, y sin estandarización, variables con mayor escala recibirían penalizaciones desproporcionadas, sesgando la selección de características.

Algoritmos basados en distancias

Los algoritmos basados en distancias como K-Nearest Neighbors, K-Means y DBSCAN requieren imperiosamente alguna forma de escalado, ya que calculan similitudes mediante métricas euclidianas o similares. Sin escalado, las variables con mayor magnitud dominarán el cálculo de distancias, ignorando efectivamente las variables de menor escala. Para estos algoritmos, tanto la normalización Min-Max como la estandarización Z-score resultan apropiadas, aunque la estandarización suele preferirse por su mayor robustez ante outliers moderados.