Want to create interactive content? It’s easy in Genially!
PRESENTACIÓN MACHINE LEARNING
Marc Alexander Ramírez Aguilar
Created on February 21, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Women's Presentation
View
Vintage Photo Album
View
Geniaflix Presentation
View
Shadow Presentation
View
Newspaper Presentation
View
Memories Presentation
View
Zen Presentation
Transcript
Técnicas de clasificación
Equipo: - Gamiz González Caleb
- Castillo Salgado Edgar Sebastián
- Gómez Jasso Rogelio Asahid
- Hernández Saucedo Brenda
- Ramirez Aguilar Marc Alexander
- Rodriguez Escogido Julio
Índice
¿Qué son?
Técnica supervisadas
Métodos de la técnica supervisada
Técnica no supervisada
Métodos de la tecnica no supervisada
Diferencia entre aprendizaje automático supervisado y no supervisado
¿Qué son las técnicas de clasificación?
Permiten agrupar muestras de acuerdo con criterios o métodos
El objetivo consiste en la asignación de un objeto o un fenómeno físico a una de las diversas categorías o clases especificadas.
Aprendizaje supervisado
- Cuenta con un conocimiento a priori, para la tarea de clasificar un objeto.
- Cuenta con modelos ya clasificados.
- Trabaja con un conjunto de datos “etiquetados” y resultados correctos = Area de entrenamiento
Objetivo Predecir una salida en función de las entradas conocidas.
Enfoque Minimizar los errores entre las salidas previstas y las etiquetas verdaderas.
Aprendizaje supervisado
Tener un conjunto de entrenamiento o aprendizaje y otro llamado de test o de validación para construir un modelo o regla general para la clasificación.
Primera fase
Clasificar los objetos o muestras de las que se desconoce la clase a las que pertenecen.
Segunda fase
Mide su precisión a través de la función de pérdida, ajustándose hasta que el error se haya minimizado lo suficiente. Por lo general, el etiquetado se realiza de forma manual.
Aprendizaje supervisado
Se suele usar e incluso clasificar en:
EJEMPLOS
Utiliza un algoritmo para asignar con precisión datos de prueba en categorías específicas.
- Reconocimiento de imágenes y objetos.
- Analítica predictiva.
- Análisis de opinión del cliente.
- Detección de spam. Diagnóstico de enfermedades.
- Reconocimiento de caracteres escritos a mano.
Problemas de clasificación
La regresión se utiliza para comprender la relación entre variables dependientes e independientes.
Problemas de regresión
Métodos de clasificación
Determina la combinación lineal y cuadratica de variables.
Análisis discriminante
Dadas las clases, se define por un hiperplano que separa las clases.
Máquina de Vector Soporte
Existen diversos métodos de clasificación qne entran dentro de la clase de supervisados. Aquí se presentan algunos ejemplos.
Ejecuta una época de entrenamiento por dato del conjunto y actualiza los parámetros uno por uno.
Gradiente estocastico
se asigna etiqueta de clase sobre la que se presenta con frecuencia en un punto de datos determinado.
K vecinos más cercanos
Métodos de clasificación
Usa procesos Gaussianos para clasificación donde las predicciones toman forma de probabilidades.
Gaussiano
Se basan en una técnica de clasificación estadística llamada “teorema de Bayes”.
Naive Bayes
Cabe resaoltar que se describen los modelos generales, pero, no se hace mención de las variantes de cada uno.
Calcula la categoría de destino pronosticada para cada nodo en un árbol.
Árboles de decisión
Se ejecutan varios algoritmos de árbol de decisiones en lugar de uno solo.
+ INFO
Random forest
Deep Learning
Modelo de Machine Learning que busca igualar el modo de aprendizaje del ser humao, a través de capas de redes neuronales.
Aprendizaje no supervisado
Analiza y agrupa conjuntos de datos no etiquetados, son algoritmos que descubren pateones ocultos o agrupaciones de datos no etiquetados. Este analisis permite descubrir similitudes y diferencias en la informacion y la convierte en una solucion ideal para el analisis exploratorio de datos, segmentacion de clientes y reconocimiento de imagenes.
En terminos mas tecnicos sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar algún tipo de organización que simplifique el análisis.
El aprendizaje no supervisado se suele usar en:
- Problemas de clustering (agrupamiento).
- Agrupamientos de co-ocurrencias.
- Perfilado o Profiling.
Por ejemplo, las tareas de clustering, buscan agrupamientos basados en similitudes, pero nada garantiza que éstas tengan algún significado o utilidad. En ocasiones, al explorar los datos sin un objetivo definido, se pueden encontrar correlaciones espúreas curiosas, pero poco prácticas.
Métodos de técnicas no supervisadas
Detección de anomalías
Reglas de asociación
Reducción de la dimensionalidad
Agrupamiento (Clustering)
Agrupamiento (Clustering)
El agrupamiento (o clustering) es una técnica de aprendizaje automático no supervisado que se utiliza para agrupar un conjunto de datos en subconjuntos o clústeres, de manera que los elementos dentro de un mismo clúster sean más similares entre sí que con aquellos en otros clústeres. El objetivo principal del agrupamiento es encontrar estructuras ocultas o patrones intrínsecos en los datos, sin necesidad de tener etiquetas predefinidas. El proceso de agrupamiento generalmente implica los siguientes pasos:
Asignación de puntos a clústeres
Aplicar el algoritmo de agrupamiento para asignar cada punto de datos al clúster más adecuado según su similitud con los centroides o vecinos.
Cálculo de similitudes o distancias
Selección de algoritmo
Calcular la similitud o distancia entre los puntos de datos según la métrica elegida.
Elegir un algoritmo de agrupamiento adecuado para el problema en cuestión. Algunos de los algoritmos más comunes incluyen K-Means, DBSCAN, algoritmos jerárquicos, entre otros.
Definición del número de clústeres (K)
En muchos algoritmos de agrupamiento, como K-Means, es necesario especificar el número de clústeres antes de ejecutar el algoritmo. Sin embargo, algunos algoritmos, como DBSCAN, pueden determinar automáticamente el número de clústeres.
Selección de datos
Seleccionar el conjunto de datos sobre el cual se realizará el agrupamiento
Interpretación de los clústeres
Analizar e interpretar los clústeres resultantes para extraer información útil o insights sobre los datos.
Evaluación de los resultados
Evaluar la calidad de los clústeres obtenidos utilizando métricas como la cohesión, la separación o el índice de Silhouette.
Reducción de la dimensionalidad
La reducción de la dimensionalidad es una técnica utilizada en el aprendizaje automático y en la estadística para reducir la cantidad de variables o características en un conjunto de datos. El objetivo es conservar la mayor cantidad posible de información importante mientras se reduce la complejidad del problema al trabajar con un conjunto de datos de menor dimensión. Esto es útil para varios propósitos, incluyendo la visualización de datos de alta dimensión, la eliminación de características redundantes o irrelevantes, y la mejora del rendimiento de los algoritmos de aprendizaje automático al reducir el riesgo de sobreajuste. Existen dos enfoques principales para la reducción de la dimensionalidad:
Extracción de características
En este enfoque, se crea un nuevo conjunto de características que es una combinación lineal o no lineal de las características originales. Estas nuevas características, llamadas componentes o variables latentes, se eligen de manera que conserven la mayor cantidad posible de la varianza o información del conjunto de datos original. El Análisis de Componentes Principales (PCA) es el método de extracción de características más común, que transforma los datos en un nuevo sistema de coordenadas donde las variables están descorrelacionadas y ordenadas según la cantidad de variabilidad que explican. Otras técnicas de extracción de características incluyen el Análisis de Discriminante Lineal (LDA), la Factorización de Matrices no Negativas (NMF), y el t-Distributed Stochastic Neighbor Embedding (t-SNE).
Selección de características
Este enfoque implica seleccionar un subconjunto de características del conjunto de datos original y descartar las características restantes. La selección de características se realiza basándose en algún criterio específico, como la importancia de la característica para el problema en cuestión o la correlación entre características. Algunas técnicas comunes de selección de características incluyen la prueba de correlación, el análisis de componentes principales (PCA), y métodos basados en árboles de decisión como Random Forest.
Reglas de asociación
Las reglas de asociación se utilizan comúnmente en campos como el análisis de mercado, la recomendación de productos, la gestión de inventarios y la optimización de procesos. Un ejemplo clásico de regla de asociación es el análisis del carrito de compras en un supermercado, donde se puede descubrir qué productos se compran comúnmente juntos. Una regla de asociación típica está en la forma de "Si {antecedente} entonces {consecuente}", donde el antecedente y el consecuente son conjuntos de elementos (también conocidos como items). La regla indica que si el antecedente ocurre en una transacción, entonces es probable que también ocurra el consecuente en esa misma transacción. Por ejemplo, supongamos que en una base de datos de ventas de un supermercado se observa que los clientes que compran pan también tienden a comprar mantequilla. Entonces, una regla de asociación podría ser: Si {pan} entonces {mantequilla}
Detección de anomalías
La detección de anomalías, también conocida como detección de valores atípicos o detección de outliers, es una técnica utilizada en el análisis de datos para identificar observaciones que se desvían significativamente del patrón general de un conjunto de datos. Estas anomalías pueden indicar errores en los datos, eventos inusuales o interesantes, o incluso problemas potenciales en el sistema. La detección de anomalías es importante en una variedad de campos, incluyendo la seguridad informática, el monitoreo de sistemas, la detección de fraudes, la detección de fallos en maquinaria, el diagnóstico médico, entre otros. Existen varios enfoques para detectar anomalías en los datos:
Basado en aprendizaje automático
Este enfoque utiliza algoritmos de aprendizaje automático, como bosques aleatorios, SVM (Support Vector Machines), o redes neuronales, para clasificar observaciones como normales o anómalas.
Basado en distancias
Basado en densidad
Este enfoque se centra en identificar regiones de alta o baja densidad en el espacio de características. Las observaciones que se encuentran en regiones de baja densidad se consideran anomalías, ya que son poco probables según la distribución general de los datos.
Este enfoque implica calcular la distancia entre cada observación y sus vecinos más cercanos en el espacio de características. Las observaciones que tienen una distancia significativamente mayor o menor que el promedio se consideran anomalías.
Basado en desviaciones estadísticas
Este enfoque implica calcular medidas estadísticas como la media y la desviación estándar del conjunto de datos y luego identificar observaciones que se desvían significativamente de estas medidas. Las observaciones que se encuentran más allá de un cierto umbral de desviación estándar se consideran anomalías.
diferencia entre aprendizaje automatico supervisado y no supervisado
APRENDIZAJE AUTOMATICO SUPERVISADOEn el aprendizaje supervisado, el algoritmo recibe un conjunto de datos etiquetados, es decir, datos que ya tienen las respuestas correctas asociadas a ellos. El objetivo del algoritmo es aprender una función que mapee las entradas a las salidas deseadas. Proceso: Durante el entrenamiento, el algoritmo utiliza el conjunto de datos de entrenamiento para ajustar sus parámetros de manera que pueda predecir las etiquetas correctas para nuevas entradas que no ha visto antes. Ejemplos: Algunos ejemplos de problemas de aprendizaje supervisado incluyen la clasificación de correos electrónicos como spam o no spam, la detección de fraudes en transacciones financieras, el reconocimiento de imágenes, y la predicción de precios de acciones.
APRENDIZAJE AUTOMATICO NO SUPERVISADO En el aprendizaje no supervisado, el algoritmo recibe un conjunto de datos sin etiquetas y el objetivo principal es encontrar patrones interesantes o estructuras ocultas en los datos. Proceso: El algoritmo intenta aprender la estructura subyacente de los datos sin la guía de etiquetas predefinidas. Esto implica agrupar o segmentar los datos de alguna manera significativa o reducir la dimensionalidad de los datos para encontrar representaciones más simples. Ejemplos: Algunos ejemplos de problemas de aprendizaje no supervisado incluyen la segmentación de clientes en grupos basados en sus comportamientos de compra, la detección de anomalías en datos, la reducción de dimensionalidad para la visualización de datos, y la recomendación de contenido personalizado.
diferencias clave
Etiquetas: En el aprendizaje supervisado, se utilizan etiquetas para guiar el proceso de entrenamiento, mientras que en el aprendizaje no supervisado, los datos no están etiquetados y el algoritmo debe descubrir patrones por sí mismo. Objetivo: El objetivo del aprendizaje supervisado es predecir una salida específica, mientras que el objetivo del aprendizaje no supervisado es encontrar estructuras o patrones interesantes en los datos. Aplicaciones: El aprendizaje supervisado se utiliza comúnmente en problemas de clasificación y regresión, mientras que el aprendizaje no supervisado se utiliza en tareas como la segmentación, la reducción de dimensionalidad y la detección de anomalías. Ambos tipos de aprendizaje automático tienen sus propias aplicaciones y desafíos, y la elección entre ellos depende del problema específico que se esté abordando y de la disponibilidad de datos etiquetados. En muchos casos, también se utilizan en conjunto para obtener un análisis más completo de los datos.
¿Preguntas?
Muchas Gracias
Muchas Gracias
¿Tienes una idea?
Usa este espacio para añadir una interactividad genial. Incluye texto, imágenes, vídeos, tablas, PDFs… ¡incluso preguntas interactivas! Tip premium: Obten información de cómo interacciona tu audiencia:
- Visita las preferencias de Analytics;
- Activa el seguimiento de usuarios;
- ¡Que fluya la comunicación!