Want to create interactive content? It’s easy in Genially!

Reuse this genially

ML01 Introduccion a Machine Learning.pptx

CEAT (Proyecto 1)

Created on September 28, 2024

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

Introducción a Machine Learning

SEMANA 1

Definición de

Minería de datos, modelos y ciencia de datos

Machine Learning

Minería de Datos

Es el proceso de encontrar patrones en grandes cantidades de información que utiliza métodos como machine learning, estadística y bases de datos.

Machine Learning

Es una rama de las ciencias de la computación que usa. técnicas estadísticas para permitir que las computadoras aprendan a resolver problemas con data.

    Algoritmos

    Definición: proceso o set de reglas que siguen una secuencia de operaciones para resolver un problema.

    • Los modelos se crean a partir de algoritmos.
    • Los modelos aprenden con data.
    • Los modelos se basan en encontrar patrones que sucedieron en el pasado para predecir el futuro.

      Modelo

      Sistema de postulados, data e inferencias presentadas como una descripción. Matemática de una entidad o un estado.

        Modelo

        Sistema de postulados, data e inferencias presentadas como una descripción. Matemática de una entidad o un estado.

          Data Science

          Es un campo multidisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento de la data. Es un concepto que une estadística, análisis de datos, machine learning y sus métodos relacionados para entender fenómenos con data.

          Historia de

          Data Science

          Algoritmos, entrenamiento y evaluación

          Tipos de aprendizaje

          Tipos de aprendizaje

          Aprendizaje supervisado: es la tarea en machine learning de relacionar un input con un output basados en datos

          • Conozco la respuesta correcta.
          • Ej.: ¿Cuál es la edad de vida esperada de una persona cuando pesa x libras, dado que he visto información de estas dos variables?
          Aprendizaje no supervisado: es la tarea en machine learning que busca encontran patrones no detectados sin tener categorizaciones existentes previamente
          • No conozco la respuesta correcta
          • Ej.: ¿Qué tipos de clientes tengo dentro de mi empresa?

          Tipos de algoritmos

          Existen dos categorías principales: Supervisado

          • Regresión: Predicción de números continuos
          • Clasificación: Predicción de categorías
          No supervisado
          • Clustering: Dividir en conjuntos por similitud
          • Reducción de dimensionalidad: Reducción de variables al encontrar dependencias escondidas
          • Asociación: Identificación de secuencias o conjuntos que suceden repetidamente

          Asociación

          Reducción de dimensionalidad

          Clustering

          No Supervisado

          Clasificación

          Regresión

          Supervisado

          Machine Learning

          Machine learning: tipos de modelos

          Regresión

          ¿De qué variables depende el salario que una persona recibirá en un puesto nuevo y cuál es el salario esperado?

          • Predice números continuos

          Clasificación

          ¿Esta transacción realizada con una tarjeta de crédito es fraudulenta o no?

          • Predice categorías

          Clustering

          ¿Qué tipos de clientes tengo dentro de mi empresa?

          • Devuelve a qué cluster pertenece cada observación

          Reducción de Dimensionalidad

          ¿Qué puedo hacer para poder visualizar mis datos en menos dimensiones? ¿Qué puedo hacer para reducir la cantidad de variables que tiene mi dataset?

          • Reduce a menos variables

          Asociación

          ¿Qué productos puedo ofrecer en conjunto porque sé que existe una alta probabilidad que sean comprados ambos?

          • Devuelve conjuntos de elementos que ocurren con frecuencia

          ¿Cómo se entrenan y como se evalúan los modelos?

          Se divide el dataset en dos:

          • Train: utilizado para entrenar el modelo
          • Test: utilizado para evaluar la efectividad del modelo

          Discusión entre el grupo

            ¿Por qué se debe dividir un dataset?

            ¿Por qué se debe dividir un dataset?

            Debemos asegurarnos de que el modelo sea bueno prediciendo data que no ha visto por qué:

            • Puede tener overfitting
            • Simula como se comportaría nuestro modelo en la vida real

            Test

            ¿Por qué se debe dividir un dataset?

            Train

            Significa que el modelo está ”sobreajustado” a la data usada para entrenar. Esto implica que predice muy bien el training set pero muy mal el test set. En pocas palabras, el modelo no generaliza bien la data vista.

            ¿Qué es overfitting?

            Evaluación de modelos

            Dependiendo del tipo de problema que se quiere resolver, se utilizan diferentes metodologías para evaluarlos

            • Regresión
            • Coeficiente de correlación
            • Test set
            • Revisar coeficientes
            • Clasificación
            • Matriz de confusión
            • Precision, Recall y F1
            • Area under ROC curve
            • Test set
            • Revisar coeficientes/importancia de las variables

            Discusión de casos de uso

            Aplicaciones comunes de Machine Learning

            Framwork para desarrollo de Machine Learning

            Metodología CRISP-DM

            CRISP-DM

            Metodología

            EVALUACIÓN

            CREACIÓN DE MODELO

            PREPARACIÓN DE LOS DATOS

            EXPLORACIÓN DE LOS DATOS

            IMPLEMENTACIÓN

            ENTENDIMIENTO DEL NEGOCIO

            CRISP-DM

            Metodología

            Consiste en entender el contexto, los objetivos y requerimientos del proyecto para que el desarrollador tenga noción de lo que se necesita lograr. Tareas:

            • Reuniones y entrevistas
            • Estudio de la industria y campo en la que se trabajará
            Objetivos:
            • Definir los objetivos del proyecto
            • Análisis de la situación actual
            • Objetivos desde el punto de vista técnico
            • Producir el plan de trabajo

            ENTENDIMIENTO DEL NEGOCIO

            CRISP-DM

            Metodología

            Estudio de datos para conocer la información y sus características. Sirve para saber que esperar de los datos. Tareas:

            • Ingestar los datos
            • Determinar la calidad de los datos
            • Desarrollo de código para entender datos
            Objetivos
            • Recolectar datos
            • Mayor entendimiento de la estructura y forma de los datos
            • Explorar los datos
            • Verificar calidad de los datos
            • Entender cómo los datos van a satisfacer los objetivos del proyecto

            EXPLORACIÓN DE LOS DATOS

            CRISP-DM

            Metodología

            Procesos de ELT o ETL para convertir los datos en algo usable para los algoritmos. Esta etapa es la que más tiempo consume en un proyecto. Tareas:

            • Estandarizar los datos
            • Limpiar, filtrar y agregar los datos
            • Generación del dataset final
            Objetivos
            • Limpiar y seleccionar los datos
            • Darle formato correcto a los datos
            • Integración de datos
            • Generar variables y crear el dataset final
            • Transformar los datos para que los algoritmos puedan usarlos

            PREPARACIÓN DE LOS DATOS

            CRISP-DM

            Metodología

            La elaboración del modelo utiliza analítica avanzada y machine learning para crear un producto que responda a la necesidad de negocio. Es la etapa que menos tiempo toma en el proceso. Tareas:

            • Selección de técnicas de modelaje
            • Entrenar modelos con diversos algoritmos
            • Tunear parámetros de algoritmos
            Objetivos
            • Entrenar modelos para posteriormente poder evaluarlos

            CREACIÓN DEL MODELO

            CRISP-DM

            Metodología

            Se basa en verificar que los resultados son válidos y cumplen con los objetivos planteados al principio del proyecto. En caso los resultados sean negativos, se puede regresa a cualquiera de las etapas anteriores. Tareas:

            • Predecir la data de prueba
            • Determinar validez y eficacia de los modelos entrenados
            • Encontrar el error promedio de cada modelo entrenado
            • Revisión del proceso
            Objetivos:
            • Elegir el mejor modelo en base al error promedio y reglas del negocio
            • Validar los resultados
            • Determinar si los resultados cumplen con los objetivos planteados

            EVALUACIÓN

            CRISP-DM

            Metodología

            Se pone en producción el modelo para entregar resultados a los usuarios finales Tareas:

            • Producir el reporte final
            • Determinar formato de entrega de resultados
            • Cambiar código para que procese data dinámica
            • Planear el monitoreo y mantenimiento del modelo
            Objetivos:
            • Poner en producción el modelo
            • Producir el documento oficial

            IMPLEMENTACIÓN

            Configuración del entorno de trabajo

            Laboratorio 1.1

            Este material digital es propiedad de la Universidad Rafael Landívar, se comparte por medio de una licencia Creative Commons CC BY-NC-ND del tipo "Atribución-No Comercial-Compartir igual", la cual permite copiar, distribuir y comunicar públicamente la obra, mientras se reconozca la autoría original, no se utilice con fines comerciales, ni se realicen obras derivadas. https://creativecommons.org/licenses/by-nc-nd/3.0/gt/