Want to create interactive content? It’s easy in Genially!
ML01 Introduccion a Machine Learning.pptx
CEAT (Proyecto 1)
Created on September 28, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Introducción a Machine Learning
SEMANA 1
Definición de
Minería de datos, modelos y ciencia de datos
Machine Learning
Minería de Datos
Es el proceso de encontrar patrones en grandes cantidades de información que utiliza métodos como machine learning, estadística y bases de datos.
Machine Learning
Es una rama de las ciencias de la computación que usa. técnicas estadísticas para permitir que las computadoras aprendan a resolver problemas con data.
Algoritmos
Definición: proceso o set de reglas que siguen una secuencia de operaciones para resolver un problema.
- Los modelos se crean a partir de algoritmos.
- Los modelos aprenden con data.
- Los modelos se basan en encontrar patrones que sucedieron en el pasado para predecir el futuro.
Modelo
Sistema de postulados, data e inferencias presentadas como una descripción. Matemática de una entidad o un estado.
Modelo
Sistema de postulados, data e inferencias presentadas como una descripción. Matemática de una entidad o un estado.
Data Science
Es un campo multidisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento de la data. Es un concepto que une estadística, análisis de datos, machine learning y sus métodos relacionados para entender fenómenos con data.
Historia de
Data Science
Algoritmos, entrenamiento y evaluación
Tipos de aprendizaje
Tipos de aprendizaje
Aprendizaje supervisado: es la tarea en machine learning de relacionar un input con un output basados en datos
- Conozco la respuesta correcta.
- Ej.: ¿Cuál es la edad de vida esperada de una persona cuando pesa x libras, dado que he visto información de estas dos variables?
- No conozco la respuesta correcta
- Ej.: ¿Qué tipos de clientes tengo dentro de mi empresa?
Tipos de algoritmos
Existen dos categorías principales: Supervisado
- Regresión: Predicción de números continuos
- Clasificación: Predicción de categorías
- Clustering: Dividir en conjuntos por similitud
- Reducción de dimensionalidad: Reducción de variables al encontrar dependencias escondidas
- Asociación: Identificación de secuencias o conjuntos que suceden repetidamente
Asociación
Reducción de dimensionalidad
Clustering
No Supervisado
Clasificación
Regresión
Supervisado
Machine Learning
Machine learning: tipos de modelos
Regresión
¿De qué variables depende el salario que una persona recibirá en un puesto nuevo y cuál es el salario esperado?
- Predice números continuos
Clasificación
¿Esta transacción realizada con una tarjeta de crédito es fraudulenta o no?
- Predice categorías
Clustering
¿Qué tipos de clientes tengo dentro de mi empresa?
- Devuelve a qué cluster pertenece cada observación
Reducción de Dimensionalidad
¿Qué puedo hacer para poder visualizar mis datos en menos dimensiones? ¿Qué puedo hacer para reducir la cantidad de variables que tiene mi dataset?
- Reduce a menos variables
Asociación
¿Qué productos puedo ofrecer en conjunto porque sé que existe una alta probabilidad que sean comprados ambos?
- Devuelve conjuntos de elementos que ocurren con frecuencia
¿Cómo se entrenan y como se evalúan los modelos?
Se divide el dataset en dos:
- Train: utilizado para entrenar el modelo
- Test: utilizado para evaluar la efectividad del modelo
Discusión entre el grupo
¿Por qué se debe dividir un dataset?
¿Por qué se debe dividir un dataset?
Debemos asegurarnos de que el modelo sea bueno prediciendo data que no ha visto por qué:
- Puede tener overfitting
- Simula como se comportaría nuestro modelo en la vida real
Test
¿Por qué se debe dividir un dataset?
Train
Significa que el modelo está ”sobreajustado” a la data usada para entrenar. Esto implica que predice muy bien el training set pero muy mal el test set. En pocas palabras, el modelo no generaliza bien la data vista.
¿Qué es overfitting?
Evaluación de modelos
Dependiendo del tipo de problema que se quiere resolver, se utilizan diferentes metodologías para evaluarlos
- Regresión
- Coeficiente de correlación
- Test set
- Revisar coeficientes
- Clasificación
- Matriz de confusión
- Precision, Recall y F1
- Area under ROC curve
- Test set
- Revisar coeficientes/importancia de las variables
Discusión de casos de uso
Aplicaciones comunes de Machine Learning
Framwork para desarrollo de Machine Learning
Metodología CRISP-DM
CRISP-DM
Metodología
EVALUACIÓN
CREACIÓN DE MODELO
PREPARACIÓN DE LOS DATOS
EXPLORACIÓN DE LOS DATOS
IMPLEMENTACIÓN
ENTENDIMIENTO DEL NEGOCIO
CRISP-DM
Metodología
Consiste en entender el contexto, los objetivos y requerimientos del proyecto para que el desarrollador tenga noción de lo que se necesita lograr. Tareas:
- Reuniones y entrevistas
- Estudio de la industria y campo en la que se trabajará
- Definir los objetivos del proyecto
- Análisis de la situación actual
- Objetivos desde el punto de vista técnico
- Producir el plan de trabajo
ENTENDIMIENTO DEL NEGOCIO
CRISP-DM
Metodología
Estudio de datos para conocer la información y sus características. Sirve para saber que esperar de los datos. Tareas:
- Ingestar los datos
- Determinar la calidad de los datos
- Desarrollo de código para entender datos
- Recolectar datos
- Mayor entendimiento de la estructura y forma de los datos
- Explorar los datos
- Verificar calidad de los datos
- Entender cómo los datos van a satisfacer los objetivos del proyecto
EXPLORACIÓN DE LOS DATOS
CRISP-DM
Metodología
Procesos de ELT o ETL para convertir los datos en algo usable para los algoritmos. Esta etapa es la que más tiempo consume en un proyecto. Tareas:
- Estandarizar los datos
- Limpiar, filtrar y agregar los datos
- Generación del dataset final
- Limpiar y seleccionar los datos
- Darle formato correcto a los datos
- Integración de datos
- Generar variables y crear el dataset final
- Transformar los datos para que los algoritmos puedan usarlos
PREPARACIÓN DE LOS DATOS
CRISP-DM
Metodología
La elaboración del modelo utiliza analítica avanzada y machine learning para crear un producto que responda a la necesidad de negocio. Es la etapa que menos tiempo toma en el proceso. Tareas:
- Selección de técnicas de modelaje
- Entrenar modelos con diversos algoritmos
- Tunear parámetros de algoritmos
- Entrenar modelos para posteriormente poder evaluarlos
CREACIÓN DEL MODELO
CRISP-DM
Metodología
Se basa en verificar que los resultados son válidos y cumplen con los objetivos planteados al principio del proyecto. En caso los resultados sean negativos, se puede regresa a cualquiera de las etapas anteriores. Tareas:
- Predecir la data de prueba
- Determinar validez y eficacia de los modelos entrenados
- Encontrar el error promedio de cada modelo entrenado
- Revisión del proceso
- Elegir el mejor modelo en base al error promedio y reglas del negocio
- Validar los resultados
- Determinar si los resultados cumplen con los objetivos planteados
EVALUACIÓN
CRISP-DM
Metodología
Se pone en producción el modelo para entregar resultados a los usuarios finales Tareas:
- Producir el reporte final
- Determinar formato de entrega de resultados
- Cambiar código para que procese data dinámica
- Planear el monitoreo y mantenimiento del modelo
- Poner en producción el modelo
- Producir el documento oficial
IMPLEMENTACIÓN
Configuración del entorno de trabajo
Laboratorio 1.1
Este material digital es propiedad de la Universidad Rafael Landívar, se comparte por medio de una licencia Creative Commons CC BY-NC-ND del tipo "Atribución-No Comercial-Compartir igual", la cual permite copiar, distribuir y comunicar públicamente la obra, mientras se reconozca la autoría original, no se utilice con fines comerciales, ni se realicen obras derivadas. https://creativecommons.org/licenses/by-nc-nd/3.0/gt/