Inteligencia Artificial - Proyecto PREVENT
Teoría
Comenzar
Teoría de la Inteligencia Artificial
FG
Avances en IA
Clasificación de Imágenes
Traducción Automática
A partir de 2015, las computadoras pueden ser entrenadas para desempeñarse mejor que los humanos en tareas de clasificación de imágenes.
A partir de 2016, hemos logrado un rendimiento cercano al humano en la traducción entre idiomas usando técnicas avanzadas de IA.
"Je suis étudiant"
La IA es la nueva electricidad
"Hace aproximadamente 100 años, la electricidad transformó cada industria importante. La IA ha avanzado hasta el punto de tener el poder de transformar cada sector importante en los próximos años."
- Andrew Ng, Universidad de Stanford
Definiciones
Inteligencia Artificial
El concepto más amplio
Aprendizaje Automático
Un subconjunto de IA
Aprendizaje Profundo
Un subconjunto de AP
Inteligencia Artificial
Definición de Merriam-Webster
Definición de Intel
"Un programa que puede percibir, razonar, actuar y adaptarse."
"Una rama de la informática que trata de la simulación de comportamientos inteligentes en las computadoras."
Definición de Wikipedia
"Coloquialmente, el término 'inteligencia artificial' se aplica cuando una máquina imita funciones 'cognitivas' que los humanos asocian con otras mentes humanas, como 'aprender' y 'resolver problemas'."
Aprendizaje Automático
"El estudio y construcción de programas que no están explícitamente programados, sino que aprenden patrones a medida que se exponen a más datos con el tiempo."
Aprendizaje Automático
Datos de Entrada
Grandes conjuntos de datos alimentan el programa
Reconocimiento de Patrones
El programa identifica patrones sin programación explícita
Aprendizaje
El sistema mejora con más ejemplos
Clasificación
Toma decisiones sobre nuevos datos
Estos programas aprenden al ver datos repetidamente, en lugar de ser programados explícitamente por humanos.
Terminología de Aprendizaje Automático
Características
Atributos de los datos (columnas de entrada)
Objetivo
Columna a predecir (salida)
Este ejemplo aprende a clasificar una especie a partir de un conjunto de características de medición.
Dos tipos principales de aprendizaje automático
Aprendizaje Supervisado
Aprendizaje no supervisado
Conjunto de datos: Tiene una columna objetivo
Conjunto de datos: No tiene columna objetivo
Objetivo: Hacer predicciones
Objetivo: Encontrar estructuras en los datos
Ejemplo: Detección de fraude
Ejemplo: Segmentación de clientes
Ejemplo de Aprendizaje Automático
Detección de Fraudes
Características Clave
Los algoritmos de aprendizaje automático pueden identificar actividades inusuales en transacciones financieras.
- Ubicación de la transacción
Limitaciones del aprendizaje automático
Desafío en la ingeniería de características
Solución de aprendizaje profundo
El aprendizaje profundo supera esta limitación aprendiendo automáticamente las características más relevantes a partir de los datos en bruto.
Para tareas complejas como el reconocimiento de imágenes, definir características efectivas es difícil.
¿Qué características usarías para distinguir un gato de un perro?
Aprendizaje profundo
"El aprendizaje automático que implica usar modelos muy complicados llamados 'redes neuronales profundas'"
Los modelos de aprendizaje profundo determinan la mejor representación de los datos originales. En el aprendizaje automático clásico, los humanos deben diseñar manualmente estas características.
Ejemplo de aprendizaje profundo
Aprendizaje automático clásico
Aprendizaje profundo
Paso 1: Determinar las características manualmente
Los pasos 1 y 2 se combinan en un solo paso
Paso 2: Alimentarlas a través del modelo
La red neuronal extrae automáticamente las características relevantes
Historia de la IA
Algoritmos tempranos
1950s-1960s: Se establecen los fundamentos de la IA
Primer Invierno de la IA
Finales de los 1960s-1970s: Reducciones en la financiación tras avances limitados
Sistemas expertos
1980s: Los sistemas basados en reglas lograron éxito comercial
Segundo Invierno de la IA
Finales de los 1980s-1990s: El progreso limitado llevó a una reducción del interés
Aprendizaje automático
1990s-2000s: Los enfoques estadísticos ganaron terreno
Aprendizaje profundo
2010s-Presente: Las redes neuronales revolucionaron el campo
Años 1950: IA temprana
1950: Test de Turing
1956: Conferencia de Dartmouth
Alan Turing desarrolló una prueba para la inteligencia de las máquinas
La inteligencia artificial se aceptó como un campo académico formal
1957: Perceptrón
1959: Aprendizaje automático
Frank Rosenblatt inventó el precursor de las redes neuronales
El programa de damas de Arthur Samuel aprendió de la experiencia
El Primer "Invierno de la IA"
1966: Informe ALPAC
El comité evaluó las técnicas de IA para la traducción automática y encontró un bajo retorno de inversión
1969: Limitaciones del Perceptrón
El libro de Marvin Minsky destacó las limitaciones de las redes neuronales, ralentizando la investigación
1973: Informe Lighthill
Resaltó el fracaso de la IA en cumplir sus promesas, lo que llevó a recortes en la financiación
Impacto
Estos informes llevaron a recortes significativos en la financiación gubernamental para la investigación en IA
Boom de la IA en los 80
Sistemas expertos
Sistemas con reglas programadas diseñados para imitar a expertos humanos lograron adopción comercial
Computación en mainframe
Funcionaba con hardware especializado usando lenguajes como LISP
Éxito comercial
Dos tercios de las empresas Fortune 500 usaron sistemas expertos en su auge
Revival de las redes neuronales
En 1986, el algoritmo "Retropropagación" permitió entrenar redes multicapa
Otro Invierno de la IA (finales de los 1980 - principios de los 1990)
Integración Tecnológica
Progreso Lento
Los sistemas expertos se convirtieron en funciones en aplicaciones empresariales generales
El impacto de los sistemas expertos en problemas empresariales se estancó
Revolución de los PC
El software pasó de grandes ordenadores a computadoras personales
Disminución del interés
Problemas de escalado
El entusiasmo empresarial por la IA disminuyó significativamente
Las redes neuronales no podían manejar problemas grandes
Finales de los 90 y principios de los 2000: Aprendizaje Automático Clásico
Algoritmo SVM
Aplicaciones Prácticas
Integración
La Máquina de Vectores de Soporte se convirtió en el método principal de aprendizaje automático
Las soluciones de IA lograron avances en reconocimiento de voz, diagnóstico médico y robótica
Los algoritmos de IA se integraron en sistemas más grandes en diferentes industrias
2006: Auge del aprendizaje profundo
2006
Geoffrey Hinton publica un artículo revolucionario sobre preentrenamiento no supervisado para redes neuronales más profundas
2009
Base de datos ImageNet de imágenes etiquetadas por humanos presentada en la conferencia CVPR
2010
Se lanza la primera competición ImageNet con algoritmos compitiendo en tareas de reconocimiento visual
Rebranding
Las redes neuronales fueron renombradas como "aprendizaje profundo" para reflejar su potencial renovado
Avances en aprendizaje profundo (2012 – Presente)
2012
2013
2014
Los modelos de aprendizaje profundo superan notablemente a los métodos anteriores en la competición ImageNet
Los modelos de aprendizaje profundo comienzan a entender el "significado conceptual" de las palabras
Aparecen avances similares en tareas de traducción de idiomas
Impacto
Los avances llevaron a mejoras en la búsqueda en la web, búsqueda de documentos, resumen y traducción
Avances en Aprendizaje Profundo (2012 – Presente)
2014
Los algoritmos de visión por computador aprenden a describir fotos con lenguaje natural
2015
Google lanza TensorFlow, haciendo que las herramientas de aprendizaje profundo sean ampliamente accesibles
2016
AlphaGo de DeepMind derrota al maestro de Go Lee Se-dol, un logro histórico
Impacto
Estos avances demostraron la capacidad de la IA para dominar tareas que anteriormente se pensaba requerían intuición humana
IA moderna (2012 – Presente): Impacto del aprendizaje profundo
Vehículos autónomos
Atención sanitaria
Comunicación
La detección avanzada de objetos permite la navegación autónoma en entornos complejos
Los sistemas de IA mejoran la precisión diagnóstica en varias especialidades médicas
Los sistemas de traducción neuronal alcanzan calidad similar a la humana en muchos pares de idiomas
¿En qué se diferencia esta era de la IA?
Computadoras más rápidas
La potencia de computación moderna, especialmente las GPU, permite entrenar modelos complejos
Conjuntos de datos más grandes
La recopilación de datos a escala de Internet proporciona vastos recursos de entrenamiento
Redes neuronales avanzadas
Las arquitecturas sofisticadas pueden aprender patrones complejos de forma autónoma
Resultados interdisciplinares
Los avances en IA benefician a múltiples campos simultáneamente
Otros factores de la IA moderna
Ecosistema de Código Abierto
Bibliotecas de Código Abierto
Datos Abiertos
Los grandes conjuntos de datos etiquetados permiten entrenar modelos más sofisticados
Las herramientas basadas en Python han democratizado el acceso al aprendizaje automático
Los principales entornos de aprendizaje profundo están disponibles gratuitamente para investigadores y desarrolladores
Investigación Colaborativa
La colaboración entre academia e industria acelera el progreso
Cambios Transformadores en la Atención Médica
Diagnósticos Mejorados
Descubrimiento de Medicamentos
Atención al Paciente
- Los sistemas de IA analizan imágenes médicas con precisión de nivel experto
- La IA acelera la identificación de potenciales compuestos terapéuticos
- Los sistemas de monitorización detectan cambios sutiles en el estado del paciente
- Reduce el tiempo de desarrollo de años a meses
- La detección temprana de enfermedades mejora los resultados del tratamiento
- Los algoritmos predictivos identifican pacientes en alto riesgo
- Permite enfoques de medicina personalizada
- Reduce errores diagnósticos y mejora la atención al paciente
- Los asistentes virtuales apoyan la gestión del paciente
Cambios Transformadores en Finanzas
Comercio Algorítmico
Los sistemas de IA toman decisiones de trading a alta velocidad basándose en patrones del mercado.
Detección de Fraudes
Los modelos de ML identifican transacciones sospechosas con alta precisión
Evaluación de Riesgos
La IA evalúa solicitudes de préstamos y oportunidades de inversión
Finanzas Personales
Los chatbots y los robo-advisors ofrecen orientación financiera
Cambios Transformadores en el Gobierno
24/7
Servicios Ciudadanos
Los sistemas impulsados por IA brindan asistencia las 24 horas a los ciudadanos
50%
Mejoras en la Eficiencia
La automatización de procesos reduce costos administrativos y tiempo
90%
Detección de Amenazas
Los sistemas de IA identifican riesgos de seguridad con alta precisión
75%
Optimización de Recursos
Las aplicaciones de ciudades inteligentes mejoran la gestión de recursos urbanos
Cambios Transformadores en el Transporte
Vehículos Autónomos
Optimización Logística
Respuesta de Emergencias
Los coches autónomos utilizan IA para navegar entornos complejos de manera segura
Los sistemas de IA gestionan flotas y optimizan rutas de entrega
Drones y robots ayudan en operaciones de búsqueda y rescate
Aprendizaje Supervisado
Datos Etiquetados
Entrenamiento del Modelo
El conjunto de datos incluye características de entrada y la salida deseada
El algoritmo aprende patrones entre entradas y salidas
Evaluación
Predicción
El rendimiento se evalúa con datos de prueba reservados
Modelo entrenado aplicado a datos nuevos y no vistos
Aprendizaje Automático
Tipo
Conjunto de datos
Los datos tienen resultado conocido
Aprendizaje Supervisado
Aprendizaje No Supervisado
Los datos tienen resultado un desconocido
El estudio y construcción de programas que aprenden al ver repetidamente datos, en lugar de ser programados explícitamente por humanos.
Objetivo vs. Características
Características
Objetivo
Propiedades de los datos utilizados para la predicción (columnas no relacionadas con el objetivo)
Columna a predecir - el resultado que nos interesa
- Variables de entrada que utiliza el modelo
- Variable de salida que el modelo aprende a predecir
- En gestión de emergencias: datos meteorológicos, densidad de población, estado de infraestructura
- En gestión de emergencias: nivel de riesgo de inundación, necesidad de evacuación, recursos necesarios
Ejemplo: Problema de aprendizaje supervisado
Objetivo
Predecir si un correo electrónico es spam o no spam
Datos
Correos electrónicos históricos etiquetados como spam o no spam
Características
Texto del correo electrónico, asunto, hora de envío, información del remitente
Objetivo
Clasificación binaria: spam o no spam
Ejemplo: Problema de aprendizaje supervisado
Detección de objetos para respuesta a emergencias
Los sistemas de IA pueden identificar personas, vehículos y estructuras dañadas en zonas de desastre.
- Finalidad: Predecir la ubicación de las cajas delimitadoras alrededor de los objetos
- Datos: Imágenes con ubicaciones de cajas delimitadoras anotadas
- Características: píxeles y patrones de la imagen
- Objetivo: Coordenadas de las cajas delimitadoras de los objetos
Aplicaciones de gestión de emergencias
Detección de desastres
Predicción de riesgos
Asignación de recursos
La IA puede analizar rápidamente imágenes de satélites y drones para identificar impactos y severidad de desastres
Los modelos de aprendizaje automático pueden pronosticar trayectorias de desastres basándose en datos meteorológicos y del terreno
La IA optimiza los recursos de respuesta de emergencia basándose en evaluaciones en tiempo real de las necesidades
Formulación de un problema de aprendizaje supervisado
Recopilar conjunto de datos etiquetados
Reúne datos con características y etiquetas de salida relevantes para tu problema
Elegir un modelo
Selecciona el algoritmo más adecuado para tu tipo de datos y problema
Definir métrica de evaluación
Determina cómo medir el rendimiento según tus objetivos específicos
Seleccionar método de optimización
Elige cómo encontrar la configuración del modelo que maximice el rendimiento
¿Qué modelo?
Árbol de decisión
Vecino más cercano
Red neuronal
Hace predicciones haciendo una serie de preguntas sí/no sobre las características
Hace predicciones basándose en la similitud con ejemplos de entrenamiento
Hace predicciones usando capas interconectadas de neuronas artificiales
¿Qué modelo?
Al elegir un modelo para aplicaciones de gestión de emergencias, considere estos factores clave. La complejidad del problema y los requisitos de datos suelen superar otras consideraciones debido a la naturaleza crítica de la respuesta ante emergencias.
Métrica de Evaluación
Precisión (Accuracy)
Error Cuadrático Medio
Otras Métricas
Proporción de predicciones correctas
Media de la diferencia cuadrática entre predicciones y valores reales
- Precisión: Exactitud de las predicciones positivas
Útil cuando las clases están balanceadas
- Retirada: Capacidad para encontrar todos los casos positivos
Usado para problemas de regresión
- Puntuación F1: Media armónica de precisión y retirada
- AUC-ROC: Área bajo la curva ROC
Métrica de Evaluación
La Métrica Incorrecta Puede Ser Engañosa
En Gestión de Emergencias
Considera usar precisión para detección de spam con un 99% de correos spam. Un modelo que predice "spam" en todos los correos tendría un 99% de precisión pero perdería correos legítimos importantes.
Los falsos negativos (no detectar una emergencia) suelen ser más costosos que los falsos positivos (alertas falsas). Las métricas deben reflejar este costo asimétrico.
El Contexto Importa
Elige métricas que se alineen con el impacto en el mundo real de las predicciones. Para decisiones de evacuación, la retirada (encontrar todos los casos que requieren evacuación) puede ser más importante que la precisión.
Entrenamiento
Datos de entrenamiento
Optimización
Para la gestión de emergencias
El conjunto de datos utilizado para enseñar al modelo patrones entre características y objetivos
El proceso de configurar el modelo para un mejor rendimiento
Los modelos deben entrenarse con escenarios diversos para manejar la naturaleza impredecible de los desastres
- Ajusta los parámetros del modelo para minimizar errores
- Situaciones de emergencia históricas con resultados
- Escenarios de desastre sintéticos
- Utiliza algoritmos como descenso de gradiente
- Datos de simulaciones y ejercicios
- Puede requerir múltiples iteraciones
Entrenamiento
Datos de Entrada
Ejemplos etiquetados alimentan el modelo
Paso Adelante
El modelo genera predicciones basadas en la configuración actual
Cálculo de Error
Se mide la diferencia entre predicciones y objetivos reales
Paso Atrás
Se ajustan los parámetros del modelo para reducir errores
Iteración
El proceso se repite hasta que el rendimiento deja de mejorar
Inferencia
Nuevos Datos
Se proporcionan ejemplos no vistos por modelo entrenado
Procesado
El modelo aplica patrones aprendidos para analizar los datos
Predicción
El modelo genera resultados basados en su entrenamiento
Decisión
Las predicciones informan las acciones de gestión de emergencias
Entrenamiento vs. Inferencia
Inferencia
Aspecto
Entrenamiento
Finalidad
Aprender patrones a partir de datos
Aplicar patrones a nuevos datos
Entrada
Datos etiquetados (características + objetivos)
Datos no etiquetados (solo características)
Salida
Parámetros del modelo entrenado
Predicciones
Cálculo
Intensivo, a menudo requiere GPU
Relativamente ligero
Despliegue
Normalmente offline, en desarrollo
En tiempo real, en producción
Resumen del aprendizaje supervisado
Fase de entrenamiento
Fase de inferencia
Datos con respuestas + Modelo → Modelo entrenado
Nuevos datos + Modelo entrenado → Predicciones
Evaluación
Refinamiento
Comparar predicciones con resultados reales
Mejorar el modelo según el rendimiento
El objetivo final es desarrollar un modelo que funcione bien con datos no vistos, haciendo predicciones confiables en nuevas situaciones de emergencia.
Ejemplo de gestión de emergencias
Evaluación de daños
Predicción de incendios forestales
Evaluación del riesgo de inundaciones
Los algoritmos de visión por computador identifican rápidamente daños estructurales después de terremotos
Los algoritmos de ML estiman la probabilidad de inundación usando datos de precipitación y terreno
Los modelos de IA predicen la propagación del fuego basándose en el clima, la vegetación y la topografía
Ajuste de curvas: Ejemplo de sobreajuste vs. subajuste
Objetivo
Desafío
Ajustar una curva a los datos para modelar la relación subyacente
Encontrar la complejidad adecuada para el modelo que capture el patrón real sin ajustarse al ruido
En gestión de emergencias: modelar la relación entre las condiciones climáticas y la severidad de las inundaciones
Ajuste de Curvas: Ejemplo de Subajuste
La Curva Es Demasiado Sencilla
El modelo no logra captar patrones importantes en los datos
Rendimiento Pobre en el Entrenamiento
Error alto incluso en los datos utilizados para entrenar
Mal Rendimiento en Pruebas
No puede generalizar a nuevas situaciones
En Gestión de Emergencias
Un modelo subajustado podría no detectar señales críticas de una inminente catástrofe
Ajuste de Curvas: Ejemplo de Sobreajuste
La Curva Es Demasiado Compleja
El modelo captura ruido aleatorio en lugar de patrones reales
Excelente Rendimiento en Entrenamiento
Ajuste casi perfecto a los datos de entrenamiento
Rendimiento Deficiente en Pruebas
No puede generalizar a nuevas situaciones
En Gestión de Emergencias
Un modelo sobreajustado podría generar alarmas falsas o no detectar emergencias genuinas en condiciones ligeramente diferentes
Problema de ajuste de curvas
Desafío
Riesgo
Para la gestión de emergencias
Los datos no vistos no están disponibles durante el entrenamiento, lo que dificulta evaluar el rendimiento en nuevos escenarios
Al medir el rendimiento solo en los datos de entrenamiento, los modelos tienden a sobreajustarse
Encontrar el equilibrio correcto es crucial: los modelos deben generalizar a nuevos escenarios de desastre mientras mantienen sensibilidad a las señales de advertencia
Solución: Dividir los datos en dos conjuntos
Conjunto de entrenamiento
Conjunto de prueba
Datos utilizados para el aprendizaje del modelo
Datos utilizados para evaluar el rendimiento
- 70-80% de los datos disponibles
- 20-30% de los datos disponibles
- Utilizado para ajustar los parámetros del modelo
- Simula escenarios no vistos
- El modelo ve estos datos durante el aprendizaje
- El modelo nunca ve esto durante el entrenamiento
División Entrenamiento-Prueba
Fase de Entrenamiento
Ajuste de peso del modelo
Fase de Prueba
Evaluación del rendimiento
El modelo aprende patrones a partir de los datos de entrenamiento
Modelo entrenado evaluado en datos de prueba no vistos
Parámetros optimizados en base al rendimiento en entrenamiento
Los resultados de las pruebas estiman el rendimiento en el mundo real
Este enfoque simula cómo el modelo funcionará en situaciones de emergencia reales que no ha enfrentado antes.
Validación cruzada para modelos de emergencia
Dividir datos
Iterar
Entrenar en todas menos una partición, probar en la partición restante
Dividir el conjunto de datos en múltiples particiones
Rotar
Promediar
Repetir usando una partición diferente como conjunto de prueba
Calcular el rendimiento en todas las iteraciones
La validación cruzada proporciona una estimación de rendimiento más robusta, especialmente importante para modelos de gestión de emergencias donde los datos pueden ser limitados y la variabilidad alta.
Aprendizaje profundo
"El aprendizaje automático que implica el uso de modelos muy complicados llamados 'redes neuronales profundas'."
Estos modelos sofisticados determinan automáticamente la mejor representación de los datos, eliminando la necesidad de ingeniería manual de características que requiere el aprendizaje automático tradicional.
Diferencias del aprendizaje profundo
Aprendizaje automático clásico
Aprendizaje profundo
Dos pasos distintos:
Enfoque integrado:
1. Los humanos determinan las características manualmente
- Extracción de características y modelado combinados
2. Las características se introducen en el modelo
- Datos en bruto procesados a través de múltiples capas
- Cada capa aprende características cada vez más abstractas
Tipos de problemas de aprendizaje profundo
Análisis de imágenes
- Clasificación de tipos de desastres
- Detección de objetos en áreas afectadas
- Segmentación semántica de zonas dañadas
Procesamiento de lenguaje natural
- Monitorización de redes sociales para informes de emergencia
- Análisis de sentimientos durante crisis
- Comunicación automática de emergencias
Análisis de series temporales
- Predicción de patrones climáticos
- Monitoreo de datos de sensores
- Pronóstico de propagación de epidemias
Reconocimiento de voz
- Procesamiento de llamadas de emergencia
- Sistemas de respuesta activados por voz
- Soporte multilingüe para comunicación
Clasificación y Detección
Detección de Objetos
Aplicaciones de Emergencia
Procesamiento en Tiempo Real
Ubica e identifica objetos específicos en imágenes o fotogramas de video
Identifica víctimas, estructuras dañadas, carreteras bloqueadas y vehículos de emergencia
Permite una respuesta rápida ante situaciones en desarrollo
Segmentación Semántica
Clasificación a nivel de píxel
Etiqueta cada píxel en una imagen, creando mapas detallados de diferentes elementos
En la gestión de emergencias:
- Evaluación precisa de daños
- Cartografía precisa de la extensión de inundaciones
- Detección detallada de límites de incendios forestales
- Identificación de zonas seguras vs áreas peligrosas
Recuperación de Objetos mediante Lenguaje Natural
Búsqueda Visual Guiada por Texto
Aplicaciones de Emergencia
Gestión de Recursos
Los sistemas pueden localizar objetos en imágenes basándose en descripciones en lenguaje natural
Permite operaciones de búsqueda y rescate basadas en las descripciones de los testigos
Identifica rápidamente infraestructura o recursos específicos necesarios durante la respuesta
Reconocimiento de voz y traducción de idiomas
Comunicación entre idiomas
Procesamiento de llamadas de emergencia
Comandos de voz
Operación manos libres de los sistemas de emergencia mediante reconocimiento de voz
La inteligencia artificial permite una comunicación eficaz entre los equipos de respuesta y las poblaciones afectadas, independientemente de las barreras del idioma
La transcripción y análisis automatizado de llamadas de emergencia ayuda a priorizar la respuesta
Comunicación por radio
Transcripción en tiempo real de las comunicaciones de radio en campo para centros de coordinación
Red Neuronal Totalmente Conectada
FG
Formulación de herramientas de aprendizaje supervisado
Recolección de conjuntos de datos
Recopila características y etiquetas objetivo que representan el problema que estás resolviendo.
Selección de modelo
Elige una arquitectura adecuada según el tipo de problema.
Métrica de evaluación
Define cómo medirás el rendimiento y el éxito.
Método de optimización
Determina cómo encontrar la configuración óptima del modelo.
¿Qué modelo?
Inspiración biológica
Bloques constructores de neuronas
Los modelos de aprendizaje profundo se inspiran en el cerebro humano y su estructura neuronal.
El componente principal de las redes neuronales es la neurona artificial, que procesa entradas en salidas significativas.
Los diferentes modelos representan los problemas de manera única, cada uno con ventajas distintas para escenarios específicos.
Mecánica de Neuronas
Características de Entrada
X1, X2, X3 son entradas numéricas que representan características de los datos.
Suma Ponderada
Cada entrada se multiplica por un peso (W1, W2, W3), y luego se suman.
Valor de Salida
Z = X1W1 + X2W2 + X3W3 es el resultado del cálculo ponderado.
Funciones de activación
Propósito
Variedad
No linealidad
Transformar la suma ponderada en un valor de salida significativo.
Existen múltiples funciones, cada una con propiedades matemáticas específicas.
La mayoría de las funciones de activación introducen propiedades no lineales, permitiendo aprender patrones complejos.
El Modelo Perceptrón
Significado Histórico
Separación Lineal
Arquitectura Simple
Solo puede resolver problemas donde las clases pueden ser separadas por una línea recta.
Utiliza funciones de activación básicas para clasificar entradas en categorías binarias.
Uno de los primeros modelos de redes neuronales, desarrollado en los años 50.
Limitaciones del Perceptrón
Problemas No Lineales
El Problema XOR
Catalizador del Invierno de la IA
Los perceptrones fallan cuando los datos no pueden ser separados por una sola línea.
Un ejemplo famoso donde los perceptrones fallan, requiriendo múltiples fronteras de decisión.
Esta limitación contribuyó a reducir el interés y la financiación en la investigación de redes neuronales.
Redes completamente conectadas
Capa de salida
Predicciones finales
Capas ocultas
Extracción de características complejas
Capa de entrada
Características de datos en bruto
Las redes completamente conectadas organizan las neuronas en capas. Cada neurona se conecta a todas las neuronas en capas adyacentes. Cada conexión tiene un peso separado. Esta estructura permite resolver problemas complejos y no lineales transformando los datos a través de capas sucesivas.
Arquitectura de Aprendizaje Profundo
Compresión de Características
Procesamiento de Entrada
Cada capa resume información importante
Los datos en bruto ingresan a la red
Extracción de Relevancia
Generación de Salidas
Se identifican patrones específicos de la tarea
Emergen predicciones finales
El aprendizaje profundo utiliza muchas capas, a menudo decrecientes en anchura. Las arquitecturas modernas pueden contener cientos de capas, cada una extrayendo características cada vez más abstractas de los datos.
Construcción de una Red Totalmente Conectada
Arquitectura de la Red
Definir capas y neuronas
Funciones de Activación
Elegir funciones apropiadas
Métricas de Evaluación
Seleccionar medidas de rendimiento
Entrenamiento de Pesos
Aprender parámetros óptimos
Al crear una red neuronal, debes decidir el número de capas, neuronas por capa y funciones de activación apropiadas. Los pesos del modelo se aprenden automáticamente durante el entrenamiento.
Métricas de Evaluación
Regresión
Clasificación
Multi-Etiqueta
El Error Cuadrático Medio (MSE) mide la diferencia media al cuadrado entre las predicciones y los valores reales.
La entropía cruzada categórica mide cómo de bien predice el modelo las probabilidades de clase.
La Entropía cruzada binaria evalúa la precisión de la predicción cuando los elementos pueden pertenecer a múltiples clases.
Limitaciones de Redes Totalmente Conectadas
10^9+
Cantidad de Parámetros
Las redes grandes pueden contener miles de millones de pesos.
TB
Uso de Memoria
Requiere una RAM significativa para entrenamiento e inferencia.
100x
Cálculo
Se necesita mucho más poder de procesamiento que modelos más simples.
Bajo
Detección de Características
No es óptimo para patrones espaciales en imágenes o secuencias.
CNN: Revolución en el procesamiento visual
Las Redes Neuronales Convolucionales representan un cambio fundamental en la forma en que las computadoras procesan la información visual. Inspiradas en los sistemas visuales biológicos, las CNN han transformado el reconocimiento de imágenes, la detección de objetos y muchas otras tareas visuales.
Redes neuronales convolucionales
Conexiones localizadas
Compartir pesos
Cada neurona se conecta solo a una pequeña región de la capa anterior.
El mismo conjunto de pesos se aplica en toda la entrada.
Características espaciales
Eficiencia de recursos
Excelente para reconocer patrones independientemente de la posición.
Requiere menos conexiones que las redes completamente conectadas.
Convoluciones como Detectores de Características
Detector de línea vertical
Detector de línea horizontal
Detector de Esquinas
Las convoluciones actúan como detectores locales de características que identifican patrones específicos. Cada filtro responde a diferentes elementos visuales en la imagen de entrada.
Operación de convolución
Aplicación del filtro
Creación del mapa de características
El núcleo de convolución se desliza por la imagen de entrada, realizando multiplicaciones elemento a elemento y sumas.
El resultado es una nueva imagen que resalta dónde aparecen características específicas en la entrada original.
Arquitectura CNN
Capa de entrada
Los datos de la imagen en crudo ingresan a la red para su procesamiento.
Capas convolucionales
Múltiples filtros extraen diversas características de la entrada.
Capas de agrupamiento
Reducen el tamaño de los mapas de características para disminuir dimensiones y carga computacional.
Capas completamente conectadas
Combina las características extraídas para la clasificación o regresión final.
Transfer Learning: Construyendo sobre gigantes
El aprendizaje por transferencia aprovecha redes neuronales preentrenadas para resolver nuevos problemas con datos limitados. Al reutilizar el conocimiento de modelos existentes, podemos lograr resultados excelentes de manera más eficiente.
Desafíos en el desarrollo de CNN
Requisitos de datos
Entrenar CNNs efectivas generalmente requiere conjuntos de datos masivos con millones de ejemplos.
Demandas computacionales
El entrenamiento del modelo puede llevar días o semanas, incluso con hardware especializado en GPU.
Afinación de hiperparámetros
Encontrar configuraciones óptimas de la red requiere experimentación extensa.
Barreras de experiencia
Construir modelos competitivos desde cero requiere conocimientos técnicos profundos.
Principios del Aprendizaje por Transferencia
Características de las Capas Iniciales
Características de las Capas Intermedias
Especificidad de las Capas Finales
Las capas iniciales aprenden características visuales universales como bordes, esquinas y texturas. Estas son las que más tiempo tardan en entrenarse, pero se aplican a la mayoría de las tareas de imagen.
Las capas intermedias combinan características primitivas en formas y patrones más complejos. Estas tienen una especificidad moderada según la tarea.
Las capas finales aprenden características altamente específicas de la tarea. Estas responden rápidamente al entrenamiento y son las más adaptables a nuevas tareas.
Beneficios del Transfer Learning
Requisitos de Datos Reducidos
Entrenamiento Más Rápido
Mejor Rendimiento
Las redes preentrenadas necesitan mucho menos datos para adaptarse a nuevas tareas.
El ajuste fino lleva horas en lugar de semanas en comparación con entrenar desde cero.
Los modelos construidos sobre arquitecturas establecidas suelen lograr resultados superiores.
Portabilidad
Los pesos entrenados se almacenan y comparten fácilmente para su implementación.
Implementación del Aprendizaje por Transferencia
Seleccionar Modelo Base
Elegir una red preentrenada como ResNet, VGG o EfficientNet.
Congelar las Primeras Capas
Bloquear los pesos en las primeras capas para preservar la detección de características generales.
Reemplazar las Capas de Clasificación
Agregar nuevas capas específicas para tu tarea (por ejemplo, detección de emergencias).
Ajustar con Datos Objetivo
Entrenar las nuevas capas manteniendo fijas las capas congeladas.
Estrategias de ajuste fino
Tiempo de entrenamiento
Datos necesarios
Rendimiento
El gráfico compara diferentes enfoques de ajuste fino en escalas relativas (1-10). Considera tus datos disponibles, recursos computacionales y requisitos de rendimiento al seleccionar una estrategia. Para sistemas de detección de emergencias, “Últimas capas” suele ofrecer el mejor equilibrio.
PREVENT - Artificial Intelligence Theory (UVIGO) - ES
Cristina López Bravo
Created on June 5, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Essential Business Proposal
View
Project Roadmap Timeline
View
Step-by-Step Timeline: How to Develop an Idea
View
Artificial Intelligence History Timeline
View
Momentum: First Operational Steps
View
Momentum: Employee Introduction Presentation
View
Mind Map: The 4 Pillars of Success
Explore all templates
Transcript
Inteligencia Artificial - Proyecto PREVENT
Teoría
Comenzar
Teoría de la Inteligencia Artificial
FG
Avances en IA
Clasificación de Imágenes
Traducción Automática
A partir de 2015, las computadoras pueden ser entrenadas para desempeñarse mejor que los humanos en tareas de clasificación de imágenes.
A partir de 2016, hemos logrado un rendimiento cercano al humano en la traducción entre idiomas usando técnicas avanzadas de IA.
"Je suis étudiant"
La IA es la nueva electricidad
"Hace aproximadamente 100 años, la electricidad transformó cada industria importante. La IA ha avanzado hasta el punto de tener el poder de transformar cada sector importante en los próximos años."
- Andrew Ng, Universidad de Stanford
Definiciones
Inteligencia Artificial
El concepto más amplio
Aprendizaje Automático
Un subconjunto de IA
Aprendizaje Profundo
Un subconjunto de AP
Inteligencia Artificial
Definición de Merriam-Webster
Definición de Intel
"Un programa que puede percibir, razonar, actuar y adaptarse."
"Una rama de la informática que trata de la simulación de comportamientos inteligentes en las computadoras."
Definición de Wikipedia
"Coloquialmente, el término 'inteligencia artificial' se aplica cuando una máquina imita funciones 'cognitivas' que los humanos asocian con otras mentes humanas, como 'aprender' y 'resolver problemas'."
Aprendizaje Automático
"El estudio y construcción de programas que no están explícitamente programados, sino que aprenden patrones a medida que se exponen a más datos con el tiempo."
Aprendizaje Automático
Datos de Entrada
Grandes conjuntos de datos alimentan el programa
Reconocimiento de Patrones
El programa identifica patrones sin programación explícita
Aprendizaje
El sistema mejora con más ejemplos
Clasificación
Toma decisiones sobre nuevos datos
Estos programas aprenden al ver datos repetidamente, en lugar de ser programados explícitamente por humanos.
Terminología de Aprendizaje Automático
Características
Atributos de los datos (columnas de entrada)
Objetivo
Columna a predecir (salida)
Este ejemplo aprende a clasificar una especie a partir de un conjunto de características de medición.
Dos tipos principales de aprendizaje automático
Aprendizaje Supervisado
Aprendizaje no supervisado
Conjunto de datos: Tiene una columna objetivo
Conjunto de datos: No tiene columna objetivo
Objetivo: Hacer predicciones
Objetivo: Encontrar estructuras en los datos
Ejemplo: Detección de fraude
Ejemplo: Segmentación de clientes
Ejemplo de Aprendizaje Automático
Detección de Fraudes
Características Clave
Los algoritmos de aprendizaje automático pueden identificar actividades inusuales en transacciones financieras.
Limitaciones del aprendizaje automático
Desafío en la ingeniería de características
Solución de aprendizaje profundo
El aprendizaje profundo supera esta limitación aprendiendo automáticamente las características más relevantes a partir de los datos en bruto.
Para tareas complejas como el reconocimiento de imágenes, definir características efectivas es difícil.
¿Qué características usarías para distinguir un gato de un perro?
Aprendizaje profundo
"El aprendizaje automático que implica usar modelos muy complicados llamados 'redes neuronales profundas'"
Los modelos de aprendizaje profundo determinan la mejor representación de los datos originales. En el aprendizaje automático clásico, los humanos deben diseñar manualmente estas características.
Ejemplo de aprendizaje profundo
Aprendizaje automático clásico
Aprendizaje profundo
Paso 1: Determinar las características manualmente
Los pasos 1 y 2 se combinan en un solo paso
Paso 2: Alimentarlas a través del modelo
La red neuronal extrae automáticamente las características relevantes
Historia de la IA
Algoritmos tempranos
1950s-1960s: Se establecen los fundamentos de la IA
Primer Invierno de la IA
Finales de los 1960s-1970s: Reducciones en la financiación tras avances limitados
Sistemas expertos
1980s: Los sistemas basados en reglas lograron éxito comercial
Segundo Invierno de la IA
Finales de los 1980s-1990s: El progreso limitado llevó a una reducción del interés
Aprendizaje automático
1990s-2000s: Los enfoques estadísticos ganaron terreno
Aprendizaje profundo
2010s-Presente: Las redes neuronales revolucionaron el campo
Años 1950: IA temprana
1950: Test de Turing
1956: Conferencia de Dartmouth
Alan Turing desarrolló una prueba para la inteligencia de las máquinas
La inteligencia artificial se aceptó como un campo académico formal
1957: Perceptrón
1959: Aprendizaje automático
Frank Rosenblatt inventó el precursor de las redes neuronales
El programa de damas de Arthur Samuel aprendió de la experiencia
El Primer "Invierno de la IA"
1966: Informe ALPAC
El comité evaluó las técnicas de IA para la traducción automática y encontró un bajo retorno de inversión
1969: Limitaciones del Perceptrón
El libro de Marvin Minsky destacó las limitaciones de las redes neuronales, ralentizando la investigación
1973: Informe Lighthill
Resaltó el fracaso de la IA en cumplir sus promesas, lo que llevó a recortes en la financiación
Impacto
Estos informes llevaron a recortes significativos en la financiación gubernamental para la investigación en IA
Boom de la IA en los 80
Sistemas expertos
Sistemas con reglas programadas diseñados para imitar a expertos humanos lograron adopción comercial
Computación en mainframe
Funcionaba con hardware especializado usando lenguajes como LISP
Éxito comercial
Dos tercios de las empresas Fortune 500 usaron sistemas expertos en su auge
Revival de las redes neuronales
En 1986, el algoritmo "Retropropagación" permitió entrenar redes multicapa
Otro Invierno de la IA (finales de los 1980 - principios de los 1990)
Integración Tecnológica
Progreso Lento
Los sistemas expertos se convirtieron en funciones en aplicaciones empresariales generales
El impacto de los sistemas expertos en problemas empresariales se estancó
Revolución de los PC
El software pasó de grandes ordenadores a computadoras personales
Disminución del interés
Problemas de escalado
El entusiasmo empresarial por la IA disminuyó significativamente
Las redes neuronales no podían manejar problemas grandes
Finales de los 90 y principios de los 2000: Aprendizaje Automático Clásico
Algoritmo SVM
Aplicaciones Prácticas
Integración
La Máquina de Vectores de Soporte se convirtió en el método principal de aprendizaje automático
Las soluciones de IA lograron avances en reconocimiento de voz, diagnóstico médico y robótica
Los algoritmos de IA se integraron en sistemas más grandes en diferentes industrias
2006: Auge del aprendizaje profundo
2006
Geoffrey Hinton publica un artículo revolucionario sobre preentrenamiento no supervisado para redes neuronales más profundas
2009
Base de datos ImageNet de imágenes etiquetadas por humanos presentada en la conferencia CVPR
2010
Se lanza la primera competición ImageNet con algoritmos compitiendo en tareas de reconocimiento visual
Rebranding
Las redes neuronales fueron renombradas como "aprendizaje profundo" para reflejar su potencial renovado
Avances en aprendizaje profundo (2012 – Presente)
2012
2013
2014
Los modelos de aprendizaje profundo superan notablemente a los métodos anteriores en la competición ImageNet
Los modelos de aprendizaje profundo comienzan a entender el "significado conceptual" de las palabras
Aparecen avances similares en tareas de traducción de idiomas
Impacto
Los avances llevaron a mejoras en la búsqueda en la web, búsqueda de documentos, resumen y traducción
Avances en Aprendizaje Profundo (2012 – Presente)
2014
Los algoritmos de visión por computador aprenden a describir fotos con lenguaje natural
2015
Google lanza TensorFlow, haciendo que las herramientas de aprendizaje profundo sean ampliamente accesibles
2016
AlphaGo de DeepMind derrota al maestro de Go Lee Se-dol, un logro histórico
Impacto
Estos avances demostraron la capacidad de la IA para dominar tareas que anteriormente se pensaba requerían intuición humana
IA moderna (2012 – Presente): Impacto del aprendizaje profundo
Vehículos autónomos
Atención sanitaria
Comunicación
La detección avanzada de objetos permite la navegación autónoma en entornos complejos
Los sistemas de IA mejoran la precisión diagnóstica en varias especialidades médicas
Los sistemas de traducción neuronal alcanzan calidad similar a la humana en muchos pares de idiomas
¿En qué se diferencia esta era de la IA?
Computadoras más rápidas
La potencia de computación moderna, especialmente las GPU, permite entrenar modelos complejos
Conjuntos de datos más grandes
La recopilación de datos a escala de Internet proporciona vastos recursos de entrenamiento
Redes neuronales avanzadas
Las arquitecturas sofisticadas pueden aprender patrones complejos de forma autónoma
Resultados interdisciplinares
Los avances en IA benefician a múltiples campos simultáneamente
Otros factores de la IA moderna
Ecosistema de Código Abierto
Bibliotecas de Código Abierto
Datos Abiertos
Los grandes conjuntos de datos etiquetados permiten entrenar modelos más sofisticados
Las herramientas basadas en Python han democratizado el acceso al aprendizaje automático
Los principales entornos de aprendizaje profundo están disponibles gratuitamente para investigadores y desarrolladores
Investigación Colaborativa
La colaboración entre academia e industria acelera el progreso
Cambios Transformadores en la Atención Médica
Diagnósticos Mejorados
Descubrimiento de Medicamentos
Atención al Paciente
Cambios Transformadores en Finanzas
Comercio Algorítmico
Los sistemas de IA toman decisiones de trading a alta velocidad basándose en patrones del mercado.
Detección de Fraudes
Los modelos de ML identifican transacciones sospechosas con alta precisión
Evaluación de Riesgos
La IA evalúa solicitudes de préstamos y oportunidades de inversión
Finanzas Personales
Los chatbots y los robo-advisors ofrecen orientación financiera
Cambios Transformadores en el Gobierno
24/7
Servicios Ciudadanos
Los sistemas impulsados por IA brindan asistencia las 24 horas a los ciudadanos
50%
Mejoras en la Eficiencia
La automatización de procesos reduce costos administrativos y tiempo
90%
Detección de Amenazas
Los sistemas de IA identifican riesgos de seguridad con alta precisión
75%
Optimización de Recursos
Las aplicaciones de ciudades inteligentes mejoran la gestión de recursos urbanos
Cambios Transformadores en el Transporte
Vehículos Autónomos
Optimización Logística
Respuesta de Emergencias
Los coches autónomos utilizan IA para navegar entornos complejos de manera segura
Los sistemas de IA gestionan flotas y optimizan rutas de entrega
Drones y robots ayudan en operaciones de búsqueda y rescate
Aprendizaje Supervisado
Datos Etiquetados
Entrenamiento del Modelo
El conjunto de datos incluye características de entrada y la salida deseada
El algoritmo aprende patrones entre entradas y salidas
Evaluación
Predicción
El rendimiento se evalúa con datos de prueba reservados
Modelo entrenado aplicado a datos nuevos y no vistos
Aprendizaje Automático
Tipo
Conjunto de datos
Los datos tienen resultado conocido
Aprendizaje Supervisado
Aprendizaje No Supervisado
Los datos tienen resultado un desconocido
El estudio y construcción de programas que aprenden al ver repetidamente datos, en lugar de ser programados explícitamente por humanos.
Objetivo vs. Características
Características
Objetivo
Propiedades de los datos utilizados para la predicción (columnas no relacionadas con el objetivo)
Columna a predecir - el resultado que nos interesa
Ejemplo: Problema de aprendizaje supervisado
Objetivo
Predecir si un correo electrónico es spam o no spam
Datos
Correos electrónicos históricos etiquetados como spam o no spam
Características
Texto del correo electrónico, asunto, hora de envío, información del remitente
Objetivo
Clasificación binaria: spam o no spam
Ejemplo: Problema de aprendizaje supervisado
Detección de objetos para respuesta a emergencias
Los sistemas de IA pueden identificar personas, vehículos y estructuras dañadas en zonas de desastre.
Aplicaciones de gestión de emergencias
Detección de desastres
Predicción de riesgos
Asignación de recursos
La IA puede analizar rápidamente imágenes de satélites y drones para identificar impactos y severidad de desastres
Los modelos de aprendizaje automático pueden pronosticar trayectorias de desastres basándose en datos meteorológicos y del terreno
La IA optimiza los recursos de respuesta de emergencia basándose en evaluaciones en tiempo real de las necesidades
Formulación de un problema de aprendizaje supervisado
Recopilar conjunto de datos etiquetados
Reúne datos con características y etiquetas de salida relevantes para tu problema
Elegir un modelo
Selecciona el algoritmo más adecuado para tu tipo de datos y problema
Definir métrica de evaluación
Determina cómo medir el rendimiento según tus objetivos específicos
Seleccionar método de optimización
Elige cómo encontrar la configuración del modelo que maximice el rendimiento
¿Qué modelo?
Árbol de decisión
Vecino más cercano
Red neuronal
Hace predicciones haciendo una serie de preguntas sí/no sobre las características
Hace predicciones basándose en la similitud con ejemplos de entrenamiento
Hace predicciones usando capas interconectadas de neuronas artificiales
¿Qué modelo?
Al elegir un modelo para aplicaciones de gestión de emergencias, considere estos factores clave. La complejidad del problema y los requisitos de datos suelen superar otras consideraciones debido a la naturaleza crítica de la respuesta ante emergencias.
Métrica de Evaluación
Precisión (Accuracy)
Error Cuadrático Medio
Otras Métricas
Proporción de predicciones correctas
Media de la diferencia cuadrática entre predicciones y valores reales
Útil cuando las clases están balanceadas
Usado para problemas de regresión
Métrica de Evaluación
La Métrica Incorrecta Puede Ser Engañosa
En Gestión de Emergencias
Considera usar precisión para detección de spam con un 99% de correos spam. Un modelo que predice "spam" en todos los correos tendría un 99% de precisión pero perdería correos legítimos importantes.
Los falsos negativos (no detectar una emergencia) suelen ser más costosos que los falsos positivos (alertas falsas). Las métricas deben reflejar este costo asimétrico.
El Contexto Importa
Elige métricas que se alineen con el impacto en el mundo real de las predicciones. Para decisiones de evacuación, la retirada (encontrar todos los casos que requieren evacuación) puede ser más importante que la precisión.
Entrenamiento
Datos de entrenamiento
Optimización
Para la gestión de emergencias
El conjunto de datos utilizado para enseñar al modelo patrones entre características y objetivos
El proceso de configurar el modelo para un mejor rendimiento
Los modelos deben entrenarse con escenarios diversos para manejar la naturaleza impredecible de los desastres
Entrenamiento
Datos de Entrada
Ejemplos etiquetados alimentan el modelo
Paso Adelante
El modelo genera predicciones basadas en la configuración actual
Cálculo de Error
Se mide la diferencia entre predicciones y objetivos reales
Paso Atrás
Se ajustan los parámetros del modelo para reducir errores
Iteración
El proceso se repite hasta que el rendimiento deja de mejorar
Inferencia
Nuevos Datos
Se proporcionan ejemplos no vistos por modelo entrenado
Procesado
El modelo aplica patrones aprendidos para analizar los datos
Predicción
El modelo genera resultados basados en su entrenamiento
Decisión
Las predicciones informan las acciones de gestión de emergencias
Entrenamiento vs. Inferencia
Inferencia
Aspecto
Entrenamiento
Finalidad
Aprender patrones a partir de datos
Aplicar patrones a nuevos datos
Entrada
Datos etiquetados (características + objetivos)
Datos no etiquetados (solo características)
Salida
Parámetros del modelo entrenado
Predicciones
Cálculo
Intensivo, a menudo requiere GPU
Relativamente ligero
Despliegue
Normalmente offline, en desarrollo
En tiempo real, en producción
Resumen del aprendizaje supervisado
Fase de entrenamiento
Fase de inferencia
Datos con respuestas + Modelo → Modelo entrenado
Nuevos datos + Modelo entrenado → Predicciones
Evaluación
Refinamiento
Comparar predicciones con resultados reales
Mejorar el modelo según el rendimiento
El objetivo final es desarrollar un modelo que funcione bien con datos no vistos, haciendo predicciones confiables en nuevas situaciones de emergencia.
Ejemplo de gestión de emergencias
Evaluación de daños
Predicción de incendios forestales
Evaluación del riesgo de inundaciones
Los algoritmos de visión por computador identifican rápidamente daños estructurales después de terremotos
Los algoritmos de ML estiman la probabilidad de inundación usando datos de precipitación y terreno
Los modelos de IA predicen la propagación del fuego basándose en el clima, la vegetación y la topografía
Ajuste de curvas: Ejemplo de sobreajuste vs. subajuste
Objetivo
Desafío
Ajustar una curva a los datos para modelar la relación subyacente
Encontrar la complejidad adecuada para el modelo que capture el patrón real sin ajustarse al ruido
En gestión de emergencias: modelar la relación entre las condiciones climáticas y la severidad de las inundaciones
Ajuste de Curvas: Ejemplo de Subajuste
La Curva Es Demasiado Sencilla
El modelo no logra captar patrones importantes en los datos
Rendimiento Pobre en el Entrenamiento
Error alto incluso en los datos utilizados para entrenar
Mal Rendimiento en Pruebas
No puede generalizar a nuevas situaciones
En Gestión de Emergencias
Un modelo subajustado podría no detectar señales críticas de una inminente catástrofe
Ajuste de Curvas: Ejemplo de Sobreajuste
La Curva Es Demasiado Compleja
El modelo captura ruido aleatorio en lugar de patrones reales
Excelente Rendimiento en Entrenamiento
Ajuste casi perfecto a los datos de entrenamiento
Rendimiento Deficiente en Pruebas
No puede generalizar a nuevas situaciones
En Gestión de Emergencias
Un modelo sobreajustado podría generar alarmas falsas o no detectar emergencias genuinas en condiciones ligeramente diferentes
Problema de ajuste de curvas
Desafío
Riesgo
Para la gestión de emergencias
Los datos no vistos no están disponibles durante el entrenamiento, lo que dificulta evaluar el rendimiento en nuevos escenarios
Al medir el rendimiento solo en los datos de entrenamiento, los modelos tienden a sobreajustarse
Encontrar el equilibrio correcto es crucial: los modelos deben generalizar a nuevos escenarios de desastre mientras mantienen sensibilidad a las señales de advertencia
Solución: Dividir los datos en dos conjuntos
Conjunto de entrenamiento
Conjunto de prueba
Datos utilizados para el aprendizaje del modelo
Datos utilizados para evaluar el rendimiento
División Entrenamiento-Prueba
Fase de Entrenamiento
Ajuste de peso del modelo
Fase de Prueba
Evaluación del rendimiento
El modelo aprende patrones a partir de los datos de entrenamiento
Modelo entrenado evaluado en datos de prueba no vistos
Parámetros optimizados en base al rendimiento en entrenamiento
Los resultados de las pruebas estiman el rendimiento en el mundo real
Este enfoque simula cómo el modelo funcionará en situaciones de emergencia reales que no ha enfrentado antes.
Validación cruzada para modelos de emergencia
Dividir datos
Iterar
Entrenar en todas menos una partición, probar en la partición restante
Dividir el conjunto de datos en múltiples particiones
Rotar
Promediar
Repetir usando una partición diferente como conjunto de prueba
Calcular el rendimiento en todas las iteraciones
La validación cruzada proporciona una estimación de rendimiento más robusta, especialmente importante para modelos de gestión de emergencias donde los datos pueden ser limitados y la variabilidad alta.
Aprendizaje profundo
"El aprendizaje automático que implica el uso de modelos muy complicados llamados 'redes neuronales profundas'."
Estos modelos sofisticados determinan automáticamente la mejor representación de los datos, eliminando la necesidad de ingeniería manual de características que requiere el aprendizaje automático tradicional.
Diferencias del aprendizaje profundo
Aprendizaje automático clásico
Aprendizaje profundo
Dos pasos distintos:
Enfoque integrado:
1. Los humanos determinan las características manualmente
2. Las características se introducen en el modelo
Tipos de problemas de aprendizaje profundo
Análisis de imágenes
Procesamiento de lenguaje natural
Análisis de series temporales
Reconocimiento de voz
Clasificación y Detección
Detección de Objetos
Aplicaciones de Emergencia
Procesamiento en Tiempo Real
Ubica e identifica objetos específicos en imágenes o fotogramas de video
Identifica víctimas, estructuras dañadas, carreteras bloqueadas y vehículos de emergencia
Permite una respuesta rápida ante situaciones en desarrollo
Segmentación Semántica
Clasificación a nivel de píxel
Etiqueta cada píxel en una imagen, creando mapas detallados de diferentes elementos
En la gestión de emergencias:
Recuperación de Objetos mediante Lenguaje Natural
Búsqueda Visual Guiada por Texto
Aplicaciones de Emergencia
Gestión de Recursos
Los sistemas pueden localizar objetos en imágenes basándose en descripciones en lenguaje natural
Permite operaciones de búsqueda y rescate basadas en las descripciones de los testigos
Identifica rápidamente infraestructura o recursos específicos necesarios durante la respuesta
Reconocimiento de voz y traducción de idiomas
Comunicación entre idiomas
Procesamiento de llamadas de emergencia
Comandos de voz
Operación manos libres de los sistemas de emergencia mediante reconocimiento de voz
La inteligencia artificial permite una comunicación eficaz entre los equipos de respuesta y las poblaciones afectadas, independientemente de las barreras del idioma
La transcripción y análisis automatizado de llamadas de emergencia ayuda a priorizar la respuesta
Comunicación por radio
Transcripción en tiempo real de las comunicaciones de radio en campo para centros de coordinación
Red Neuronal Totalmente Conectada
FG
Formulación de herramientas de aprendizaje supervisado
Recolección de conjuntos de datos
Recopila características y etiquetas objetivo que representan el problema que estás resolviendo.
Selección de modelo
Elige una arquitectura adecuada según el tipo de problema.
Métrica de evaluación
Define cómo medirás el rendimiento y el éxito.
Método de optimización
Determina cómo encontrar la configuración óptima del modelo.
¿Qué modelo?
Inspiración biológica
Bloques constructores de neuronas
Los modelos de aprendizaje profundo se inspiran en el cerebro humano y su estructura neuronal.
El componente principal de las redes neuronales es la neurona artificial, que procesa entradas en salidas significativas.
Los diferentes modelos representan los problemas de manera única, cada uno con ventajas distintas para escenarios específicos.
Mecánica de Neuronas
Características de Entrada
X1, X2, X3 son entradas numéricas que representan características de los datos.
Suma Ponderada
Cada entrada se multiplica por un peso (W1, W2, W3), y luego se suman.
Valor de Salida
Z = X1W1 + X2W2 + X3W3 es el resultado del cálculo ponderado.
Funciones de activación
Propósito
Variedad
No linealidad
Transformar la suma ponderada en un valor de salida significativo.
Existen múltiples funciones, cada una con propiedades matemáticas específicas.
La mayoría de las funciones de activación introducen propiedades no lineales, permitiendo aprender patrones complejos.
El Modelo Perceptrón
Significado Histórico
Separación Lineal
Arquitectura Simple
Solo puede resolver problemas donde las clases pueden ser separadas por una línea recta.
Utiliza funciones de activación básicas para clasificar entradas en categorías binarias.
Uno de los primeros modelos de redes neuronales, desarrollado en los años 50.
Limitaciones del Perceptrón
Problemas No Lineales
El Problema XOR
Catalizador del Invierno de la IA
Los perceptrones fallan cuando los datos no pueden ser separados por una sola línea.
Un ejemplo famoso donde los perceptrones fallan, requiriendo múltiples fronteras de decisión.
Esta limitación contribuyó a reducir el interés y la financiación en la investigación de redes neuronales.
Redes completamente conectadas
Capa de salida
Predicciones finales
Capas ocultas
Extracción de características complejas
Capa de entrada
Características de datos en bruto
Las redes completamente conectadas organizan las neuronas en capas. Cada neurona se conecta a todas las neuronas en capas adyacentes. Cada conexión tiene un peso separado. Esta estructura permite resolver problemas complejos y no lineales transformando los datos a través de capas sucesivas.
Arquitectura de Aprendizaje Profundo
Compresión de Características
Procesamiento de Entrada
Cada capa resume información importante
Los datos en bruto ingresan a la red
Extracción de Relevancia
Generación de Salidas
Se identifican patrones específicos de la tarea
Emergen predicciones finales
El aprendizaje profundo utiliza muchas capas, a menudo decrecientes en anchura. Las arquitecturas modernas pueden contener cientos de capas, cada una extrayendo características cada vez más abstractas de los datos.
Construcción de una Red Totalmente Conectada
Arquitectura de la Red
Definir capas y neuronas
Funciones de Activación
Elegir funciones apropiadas
Métricas de Evaluación
Seleccionar medidas de rendimiento
Entrenamiento de Pesos
Aprender parámetros óptimos
Al crear una red neuronal, debes decidir el número de capas, neuronas por capa y funciones de activación apropiadas. Los pesos del modelo se aprenden automáticamente durante el entrenamiento.
Métricas de Evaluación
Regresión
Clasificación
Multi-Etiqueta
El Error Cuadrático Medio (MSE) mide la diferencia media al cuadrado entre las predicciones y los valores reales.
La entropía cruzada categórica mide cómo de bien predice el modelo las probabilidades de clase.
La Entropía cruzada binaria evalúa la precisión de la predicción cuando los elementos pueden pertenecer a múltiples clases.
Limitaciones de Redes Totalmente Conectadas
10^9+
Cantidad de Parámetros
Las redes grandes pueden contener miles de millones de pesos.
TB
Uso de Memoria
Requiere una RAM significativa para entrenamiento e inferencia.
100x
Cálculo
Se necesita mucho más poder de procesamiento que modelos más simples.
Bajo
Detección de Características
No es óptimo para patrones espaciales en imágenes o secuencias.
CNN: Revolución en el procesamiento visual
Las Redes Neuronales Convolucionales representan un cambio fundamental en la forma en que las computadoras procesan la información visual. Inspiradas en los sistemas visuales biológicos, las CNN han transformado el reconocimiento de imágenes, la detección de objetos y muchas otras tareas visuales.
Redes neuronales convolucionales
Conexiones localizadas
Compartir pesos
Cada neurona se conecta solo a una pequeña región de la capa anterior.
El mismo conjunto de pesos se aplica en toda la entrada.
Características espaciales
Eficiencia de recursos
Excelente para reconocer patrones independientemente de la posición.
Requiere menos conexiones que las redes completamente conectadas.
Convoluciones como Detectores de Características
Detector de línea vertical
Detector de línea horizontal
Detector de Esquinas
Las convoluciones actúan como detectores locales de características que identifican patrones específicos. Cada filtro responde a diferentes elementos visuales en la imagen de entrada.
Operación de convolución
Aplicación del filtro
Creación del mapa de características
El núcleo de convolución se desliza por la imagen de entrada, realizando multiplicaciones elemento a elemento y sumas.
El resultado es una nueva imagen que resalta dónde aparecen características específicas en la entrada original.
Arquitectura CNN
Capa de entrada
Los datos de la imagen en crudo ingresan a la red para su procesamiento.
Capas convolucionales
Múltiples filtros extraen diversas características de la entrada.
Capas de agrupamiento
Reducen el tamaño de los mapas de características para disminuir dimensiones y carga computacional.
Capas completamente conectadas
Combina las características extraídas para la clasificación o regresión final.
Transfer Learning: Construyendo sobre gigantes
El aprendizaje por transferencia aprovecha redes neuronales preentrenadas para resolver nuevos problemas con datos limitados. Al reutilizar el conocimiento de modelos existentes, podemos lograr resultados excelentes de manera más eficiente.
Desafíos en el desarrollo de CNN
Requisitos de datos
Entrenar CNNs efectivas generalmente requiere conjuntos de datos masivos con millones de ejemplos.
Demandas computacionales
El entrenamiento del modelo puede llevar días o semanas, incluso con hardware especializado en GPU.
Afinación de hiperparámetros
Encontrar configuraciones óptimas de la red requiere experimentación extensa.
Barreras de experiencia
Construir modelos competitivos desde cero requiere conocimientos técnicos profundos.
Principios del Aprendizaje por Transferencia
Características de las Capas Iniciales
Características de las Capas Intermedias
Especificidad de las Capas Finales
Las capas iniciales aprenden características visuales universales como bordes, esquinas y texturas. Estas son las que más tiempo tardan en entrenarse, pero se aplican a la mayoría de las tareas de imagen.
Las capas intermedias combinan características primitivas en formas y patrones más complejos. Estas tienen una especificidad moderada según la tarea.
Las capas finales aprenden características altamente específicas de la tarea. Estas responden rápidamente al entrenamiento y son las más adaptables a nuevas tareas.
Beneficios del Transfer Learning
Requisitos de Datos Reducidos
Entrenamiento Más Rápido
Mejor Rendimiento
Las redes preentrenadas necesitan mucho menos datos para adaptarse a nuevas tareas.
El ajuste fino lleva horas en lugar de semanas en comparación con entrenar desde cero.
Los modelos construidos sobre arquitecturas establecidas suelen lograr resultados superiores.
Portabilidad
Los pesos entrenados se almacenan y comparten fácilmente para su implementación.
Implementación del Aprendizaje por Transferencia
Seleccionar Modelo Base
Elegir una red preentrenada como ResNet, VGG o EfficientNet.
Congelar las Primeras Capas
Bloquear los pesos en las primeras capas para preservar la detección de características generales.
Reemplazar las Capas de Clasificación
Agregar nuevas capas específicas para tu tarea (por ejemplo, detección de emergencias).
Ajustar con Datos Objetivo
Entrenar las nuevas capas manteniendo fijas las capas congeladas.
Estrategias de ajuste fino
Tiempo de entrenamiento
Datos necesarios
Rendimiento
El gráfico compara diferentes enfoques de ajuste fino en escalas relativas (1-10). Considera tus datos disponibles, recursos computacionales y requisitos de rendimiento al seleccionar una estrategia. Para sistemas de detección de emergencias, “Últimas capas” suele ofrecer el mejor equilibrio.