Want to create interactive content? It’s easy in Genially!
Machine learning - breviario s3
CSTI
Created on November 11, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Halloween Infographic
View
Halloween List 3D
View
Magic and Sorcery List
View
Journey Map
View
Versus Character
View
Akihabara Connectors Infographic Mobile
View
Mobile mockup infographic
Transcript
Breviario
Sesión 3
Exploración y Análisis de Datos
Métricas de Evaluación de Modelos
Ajuste de Hiperparámetros
Limpieza y Preprocesamiento de Datos
Validación Cruzada (Cross-validation)
Estrategias para Evitar el Sobreajuste
Extracción de Características
Normalización y Escalamiento de Datos
¿Tienes una idea?
Usa este espacio para añadir una interactividad genial. Incluye texto, imágenes, vídeos, tablas, PDFs… ¡incluso preguntas interactivas! Tip premium: Obten información de cómo interacciona tu audiencia:
- Visita las preferencias de Analytics;
- Activa el seguimiento de usuarios;
- ¡Que fluya la comunicación!
(Feature Engineering): La ingeniería de características es el proceso de crear nuevas variables a partir de las existentes para mejorar el rendimiento de los modelos. Incluye:
- Generación de Nuevas Características: Creación de variables a partir de combinaciones o transformaciones de las características originales.
- Selección de Características: Identificación y uso de las características más relevantes para el modelo, mediante métodos estadísticos o algoritmos.
El ajuste de hiperparámetros busca encontrar la mejor configuración para un modelo específico. Métodos comunes incluyen:
- Grid Search: Búsqueda exhaustiva de combinaciones de hiperparámetros en una cuadrícula predefinida.
- Random Search: Exploración aleatoria de combinaciones de hiperparámetros, lo que puede ser más eficiente que la búsqueda en cuadrícula.
La exploración y análisis de datos es el primer paso crucial en el proceso de preparación de datos. Implica la revisión detallada del conjunto de datos para entender sus características y patrones. Las técnicas incluyen:
- Análisis Descriptivo: Uso de estadísticas básicas como media, mediana, desviación estándar para resumir las propiedades del conjunto de datos.
- Visualización de Datos: Creación de gráficos y diagramas (histogramas, diagramas de dispersión, cajas y bigotes) para identificar distribuciones, tendencias y posibles anomalías.
¿Tienes una idea?
Usa este espacio para añadir una interactividad genial. Incluye texto, imágenes, vídeos, tablas, PDFs… ¡incluso preguntas interactivas! Tip premium: Obten información de cómo interacciona tu audiencia:
- Visita las preferencias de Analytics;
- Activa el seguimiento de usuarios;
- ¡Que fluya la comunicación!
La normalización y el escalamiento ajustan las características numéricas para que estén en una escala comparable, lo que puede mejorar el rendimiento de los modelos. Métodos comunes incluyen:
- Normalización Min-Max: Escala los datos para que estén en un rango específico, como [0, 1].
- Estandarización: Ajusta los datos para que tengan una media de 0 y una desviación estándar de 1.
(Overfitting): El sobreajuste ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y falla en generalizar en nuevos datos. Estrategias para evitarlo incluyen:
- Regularización: Técnicas como L1 y L2 que penalizan la complejidad del modelo para prevenir que se ajuste demasiado a los datos de entrenamiento.
- Dropout: Técnica en redes neuronales que implica desactivar aleatoriamente una fracción de neuronas durante el entrenamiento para prevenir la dependencia excesiva de ciertas características.
La validación cruzada es una técnica para evaluar la capacidad de generalización del modelo dividiendo el conjunto de datos en varios subconjuntos (folds). El modelo se entrena en algunos de estos subconjuntos y se prueba en los restantes, lo que ayuda a reducir la varianza en la evaluación del rendimiento del modelo.
La limpieza de datos es el proceso de identificar y corregir problemas en los datos para asegurar su calidad. Incluye:
- Manejo de Valores Faltantes: Estrategias como imputación (relleno con valores medios, mediana, o valores predichos) o eliminación de registros incompletos.
- Detección y Manejo de Valores Atípicos: Identificación de datos que se desvían significativamente de la norma y la decisión sobre su tratamiento.
- Transformación de Datos: Conversión de datos a formatos o estructuras que faciliten su análisis (por ejemplo, normalización de fechas).
Las métricas de evaluación permiten medir el desempeño de un modelo. Las principales métricas incluyen:
- Precisión (Accuracy): Proporción de predicciones correctas entre el total de predicciones.
- Recall (Sensibilidad): Proporción de verdaderos positivos identificados entre el total de verdaderos positivos y falsos negativos.
- F1-score: Media armónica entre precisión y recall, útil cuando hay una clase desequilibrada.