Want to create interactive content? It’s easy in Genially!

PRESENTACIÓN MACHINE LEARNING

Marc Alexander Ramírez Aguilar

Created on February 21, 2024

Start designing with a free template

Discover more than 1500 professional designs like these:

Women's Presentation

Vintage Photo Album

Geniaflix Presentation

Shadow Presentation

Newspaper Presentation

Memories Presentation

Zen Presentation

Explore all templates

Técnicas de clasificación

Equipo:
Gamiz González Caleb
Castillo Salgado Edgar Sebastián
Gómez Jasso Rogelio Asahid
Hernández Saucedo Brenda
Ramirez Aguilar Marc Alexander
Rodriguez Escogido Julio

Índice

¿Qué son?

Técnica supervisadas

Métodos de la técnica supervisada

Técnica no supervisada

Métodos de la tecnica no supervisada

Diferencia entre aprendizaje automático supervisado y no supervisado

¿Qué son las técnicas de clasificación?

Permiten agrupar muestras de acuerdo con criterios o métodos

El objetivo consiste en la asignación de un objeto o un fenómeno físico a una de las diversas categorías o clases especificadas.

Aprendizaje supervisado

Cuenta con un conocimiento a priori, para la tarea de clasificar un objeto.
Cuenta con modelos ya clasificados.
Trabaja con un conjunto de datos “etiquetados” y resultados correctos = Area de entrenamiento

Objetivo Predecir una salida en función de las entradas conocidas.

Enfoque Minimizar los errores entre las salidas previstas y las etiquetas verdaderas.

Aprendizaje supervisado

Tener un conjunto de entrenamiento o aprendizaje y otro llamado de test o de validación para construir un modelo o regla general para la clasificación.

Primera fase

Clasificar los objetos o muestras de las que se desconoce la clase a las que pertenecen.

Segunda fase

Mide su precisión a través de la función de pérdida, ajustándose hasta que el error se haya minimizado lo suficiente. Por lo general, el etiquetado se realiza de forma manual.

Aprendizaje supervisado

Se suele usar e incluso clasificar en:

EJEMPLOS

Utiliza un algoritmo para asignar con precisión datos de prueba en categorías específicas.

Reconocimiento de imágenes y objetos.
Analítica predictiva.
Análisis de opinión del cliente.
Detección de spam. Diagnóstico de enfermedades.
Reconocimiento de caracteres escritos a mano.

Problemas de clasificación

La regresión se utiliza para comprender la relación entre variables dependientes e independientes.

Problemas de regresión

Métodos de clasificación

Determina la combinación lineal y cuadratica de variables.

Análisis discriminante

Dadas las clases, se define por un hiperplano que separa las clases.

Máquina de Vector Soporte

Existen diversos métodos de clasificación qne entran dentro de la clase de supervisados. Aquí se presentan algunos ejemplos.

Ejecuta una época de entrenamiento por dato del conjunto y actualiza los parámetros uno por uno.

Gradiente estocastico

se asigna etiqueta de clase sobre la que se presenta con frecuencia en un punto de datos determinado.

K vecinos más cercanos

Métodos de clasificación

Usa procesos Gaussianos para clasificación donde las predicciones toman forma de probabilidades.

Gaussiano

Se basan en una técnica de clasificación estadística llamada “teorema de Bayes”.

Naive Bayes

Cabe resaoltar que se describen los modelos generales, pero, no se hace mención de las variantes de cada uno.

Calcula la categoría de destino pronosticada para cada nodo en un árbol.

Árboles de decisión

Se ejecutan varios algoritmos de árbol de decisiones en lugar de uno solo.

+ INFO

Random forest

Deep Learning

Modelo de Machine Learning que busca igualar el modo de aprendizaje del ser humao, a través de capas de redes neuronales.

Aprendizaje no supervisado

Analiza y agrupa conjuntos de datos no etiquetados, son algoritmos que descubren pateones ocultos o agrupaciones de datos no etiquetados. Este analisis permite descubrir similitudes y diferencias en la informacion y la convierte en una solucion ideal para el analisis exploratorio de datos, segmentacion de clientes y reconocimiento de imagenes.

En terminos mas tecnicos sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar algún tipo de organización que simplifique el análisis.

El aprendizaje no supervisado se suele usar en:

Problemas de clustering (agrupamiento).
Agrupamientos de co-ocurrencias.
Perfilado o Profiling.

Por ejemplo, las tareas de clustering, buscan agrupamientos basados en similitudes, pero nada garantiza que éstas tengan algún significado o utilidad. En ocasiones, al explorar los datos sin un objetivo definido, se pueden encontrar correlaciones espúreas curiosas, pero poco prácticas.

Métodos de técnicas no supervisadas

Detección de anomalías

Reglas de asociación

Reducción de la dimensionalidad

Agrupamiento (Clustering)

El agrupamiento (o clustering) es una técnica de aprendizaje automático no supervisado que se utiliza para agrupar un conjunto de datos en subconjuntos o clústeres, de manera que los elementos dentro de un mismo clúster sean más similares entre sí que con aquellos en otros clústeres. El objetivo principal del agrupamiento es encontrar estructuras ocultas o patrones intrínsecos en los datos, sin necesidad de tener etiquetas predefinidas. El proceso de agrupamiento generalmente implica los siguientes pasos:

Asignación de puntos a clústeres

Aplicar el algoritmo de agrupamiento para asignar cada punto de datos al clúster más adecuado según su similitud con los centroides o vecinos.

Cálculo de similitudes o distancias

Selección de algoritmo

Calcular la similitud o distancia entre los puntos de datos según la métrica elegida.

Elegir un algoritmo de agrupamiento adecuado para el problema en cuestión. Algunos de los algoritmos más comunes incluyen K-Means, DBSCAN, algoritmos jerárquicos, entre otros.

Definición del número de clústeres (K)

En muchos algoritmos de agrupamiento, como K-Means, es necesario especificar el número de clústeres antes de ejecutar el algoritmo. Sin embargo, algunos algoritmos, como DBSCAN, pueden determinar automáticamente el número de clústeres.

Selección de datos

Seleccionar el conjunto de datos sobre el cual se realizará el agrupamiento

Interpretación de los clústeres

Analizar e interpretar los clústeres resultantes para extraer información útil o insights sobre los datos.

Evaluación de los resultados

Evaluar la calidad de los clústeres obtenidos utilizando métricas como la cohesión, la separación o el índice de Silhouette.

Reducción de la dimensionalidad

La reducción de la dimensionalidad es una técnica utilizada en el aprendizaje automático y en la estadística para reducir la cantidad de variables o características en un conjunto de datos. El objetivo es conservar la mayor cantidad posible de información importante mientras se reduce la complejidad del problema al trabajar con un conjunto de datos de menor dimensión. Esto es útil para varios propósitos, incluyendo la visualización de datos de alta dimensión, la eliminación de características redundantes o irrelevantes, y la mejora del rendimiento de los algoritmos de aprendizaje automático al reducir el riesgo de sobreajuste. Existen dos enfoques principales para la reducción de la dimensionalidad:

Extracción de características

En este enfoque, se crea un nuevo conjunto de características que es una combinación lineal o no lineal de las características originales. Estas nuevas características, llamadas componentes o variables latentes, se eligen de manera que conserven la mayor cantidad posible de la varianza o información del conjunto de datos original. El Análisis de Componentes Principales (PCA) es el método de extracción de características más común, que transforma los datos en un nuevo sistema de coordenadas donde las variables están descorrelacionadas y ordenadas según la cantidad de variabilidad que explican. Otras técnicas de extracción de características incluyen el Análisis de Discriminante Lineal (LDA), la Factorización de Matrices no Negativas (NMF), y el t-Distributed Stochastic Neighbor Embedding (t-SNE).

Selección de características

Este enfoque implica seleccionar un subconjunto de características del conjunto de datos original y descartar las características restantes. La selección de características se realiza basándose en algún criterio específico, como la importancia de la característica para el problema en cuestión o la correlación entre características. Algunas técnicas comunes de selección de características incluyen la prueba de correlación, el análisis de componentes principales (PCA), y métodos basados en árboles de decisión como Random Forest.

Reglas de asociación

Las reglas de asociación se utilizan comúnmente en campos como el análisis de mercado, la recomendación de productos, la gestión de inventarios y la optimización de procesos. Un ejemplo clásico de regla de asociación es el análisis del carrito de compras en un supermercado, donde se puede descubrir qué productos se compran comúnmente juntos. Una regla de asociación típica está en la forma de "Si {antecedente} entonces {consecuente}", donde el antecedente y el consecuente son conjuntos de elementos (también conocidos como items). La regla indica que si el antecedente ocurre en una transacción, entonces es probable que también ocurra el consecuente en esa misma transacción. Por ejemplo, supongamos que en una base de datos de ventas de un supermercado se observa que los clientes que compran pan también tienden a comprar mantequilla. Entonces, una regla de asociación podría ser: Si {pan} entonces {mantequilla}

Detección de anomalías

La detección de anomalías, también conocida como detección de valores atípicos o detección de outliers, es una técnica utilizada en el análisis de datos para identificar observaciones que se desvían significativamente del patrón general de un conjunto de datos. Estas anomalías pueden indicar errores en los datos, eventos inusuales o interesantes, o incluso problemas potenciales en el sistema. La detección de anomalías es importante en una variedad de campos, incluyendo la seguridad informática, el monitoreo de sistemas, la detección de fraudes, la detección de fallos en maquinaria, el diagnóstico médico, entre otros. Existen varios enfoques para detectar anomalías en los datos:

Basado en aprendizaje automático

Este enfoque utiliza algoritmos de aprendizaje automático, como bosques aleatorios, SVM (Support Vector Machines), o redes neuronales, para clasificar observaciones como normales o anómalas.

Basado en distancias

Basado en densidad

Este enfoque se centra en identificar regiones de alta o baja densidad en el espacio de características. Las observaciones que se encuentran en regiones de baja densidad se consideran anomalías, ya que son poco probables según la distribución general de los datos.

Este enfoque implica calcular la distancia entre cada observación y sus vecinos más cercanos en el espacio de características. Las observaciones que tienen una distancia significativamente mayor o menor que el promedio se consideran anomalías.

Basado en desviaciones estadísticas

Este enfoque implica calcular medidas estadísticas como la media y la desviación estándar del conjunto de datos y luego identificar observaciones que se desvían significativamente de estas medidas. Las observaciones que se encuentran más allá de un cierto umbral de desviación estándar se consideran anomalías.

diferencia entre aprendizaje automatico supervisado y no supervisado

APRENDIZAJE AUTOMATICO SUPERVISADOEn el aprendizaje supervisado, el algoritmo recibe un conjunto de datos etiquetados, es decir, datos que ya tienen las respuestas correctas asociadas a ellos. El objetivo del algoritmo es aprender una función que mapee las entradas a las salidas deseadas. Proceso: Durante el entrenamiento, el algoritmo utiliza el conjunto de datos de entrenamiento para ajustar sus parámetros de manera que pueda predecir las etiquetas correctas para nuevas entradas que no ha visto antes. Ejemplos: Algunos ejemplos de problemas de aprendizaje supervisado incluyen la clasificación de correos electrónicos como spam o no spam, la detección de fraudes en transacciones financieras, el reconocimiento de imágenes, y la predicción de precios de acciones.

APRENDIZAJE AUTOMATICO NO SUPERVISADO En el aprendizaje no supervisado, el algoritmo recibe un conjunto de datos sin etiquetas y el objetivo principal es encontrar patrones interesantes o estructuras ocultas en los datos. Proceso: El algoritmo intenta aprender la estructura subyacente de los datos sin la guía de etiquetas predefinidas. Esto implica agrupar o segmentar los datos de alguna manera significativa o reducir la dimensionalidad de los datos para encontrar representaciones más simples. Ejemplos: Algunos ejemplos de problemas de aprendizaje no supervisado incluyen la segmentación de clientes en grupos basados en sus comportamientos de compra, la detección de anomalías en datos, la reducción de dimensionalidad para la visualización de datos, y la recomendación de contenido personalizado.

diferencias clave

Etiquetas: En el aprendizaje supervisado, se utilizan etiquetas para guiar el proceso de entrenamiento, mientras que en el aprendizaje no supervisado, los datos no están etiquetados y el algoritmo debe descubrir patrones por sí mismo. Objetivo: El objetivo del aprendizaje supervisado es predecir una salida específica, mientras que el objetivo del aprendizaje no supervisado es encontrar estructuras o patrones interesantes en los datos. Aplicaciones: El aprendizaje supervisado se utiliza comúnmente en problemas de clasificación y regresión, mientras que el aprendizaje no supervisado se utiliza en tareas como la segmentación, la reducción de dimensionalidad y la detección de anomalías. Ambos tipos de aprendizaje automático tienen sus propias aplicaciones y desafíos, y la elección entre ellos depende del problema específico que se esté abordando y de la disponibilidad de datos etiquetados. En muchos casos, también se utilizan en conjunto para obtener un análisis más completo de los datos.

¿Preguntas?

Muchas Gracias

¿Tienes una idea?

Usa este espacio para añadir una interactividad genial. Incluye texto, imágenes, vídeos, tablas, PDFs… ¡incluso preguntas interactivas! Tip premium: Obten información de cómo interacciona tu audiencia:

Visita las preferencias de Analytics;
Activa el seguimiento de usuarios;
¡Que fluya la comunicación!

PRESENTACIÓN MACHINE LEARNING

Start designing with a free template

View

Women's Presentation

View

Vintage Photo Album

View

Geniaflix Presentation

View

Shadow Presentation

View

Newspaper Presentation

View

Memories Presentation

View

Zen Presentation

Transcript

Técnicas de clasificación

Equipo: Gamiz González Caleb Castillo Salgado Edgar SebastiánGómez Jasso Rogelio Asahid Hernández Saucedo Brenda Ramirez Aguilar Marc Alexander Rodriguez Escogido Julio

Índice

¿Qué son?

Técnica supervisadas

Métodos de la técnica supervisada

Técnica no supervisada

Métodos de la tecnica no supervisada

Diferencia entre aprendizaje automático supervisado y no supervisado

¿Qué son las técnicas de clasificación?

Aprendizaje supervisado

Objetivo Predecir una salida en función de las entradas conocidas.

Enfoque Minimizar los errores entre las salidas previstas y las etiquetas verdaderas.

Aprendizaje supervisado

Primera fase

Segunda fase

Aprendizaje supervisado

EJEMPLOS

Utiliza un algoritmo para asignar con precisión datos de prueba en categorías específicas.

Problemas de clasificación

La regresión se utiliza para comprender la relación entre variables dependientes e independientes.

Problemas de regresión

Métodos de clasificación

Análisis discriminante

Máquina de Vector Soporte

Gradiente estocastico

K vecinos más cercanos

Métodos de clasificación

Gaussiano

Naive Bayes

Árboles de decisión

Random forest

Deep Learning

Aprendizaje no supervisado

Métodos de técnicas no supervisadas

Detección de anomalías

Reglas de asociación

Reducción de la dimensionalidad

Agrupamiento (Clustering)

Agrupamiento (Clustering)

Asignación de puntos a clústeres

Cálculo de similitudes o distancias

Selección de algoritmo

Definición del número de clústeres (K)

Selección de datos

Interpretación de los clústeres

Evaluación de los resultados

Reducción de la dimensionalidad

Extracción de características

Selección de características

Reglas de asociación

Detección de anomalías

Basado en aprendizaje automático

Basado en distancias

Basado en densidad

Basado en desviaciones estadísticas

diferencia entre aprendizaje automatico supervisado y no supervisado

diferencias clave

¿Preguntas?

Muchas Gracias

Muchas Gracias

¿Tienes una idea?

Equipo:
Gamiz González Caleb
Castillo Salgado Edgar Sebastián
Gómez Jasso Rogelio Asahid
Hernández Saucedo Brenda
Ramirez Aguilar Marc Alexander
Rodriguez Escogido Julio