Want to create interactive content? It’s easy in Genially!

Get started free

ADP_L11

Producción UVEG

Created on March 23, 2026

Start designing with a free template

Discover more than 1500 professional designs like these:

Essential Business Proposal

Project Roadmap Timeline

Step-by-Step Timeline: How to Develop an Idea

Artificial Intelligence History Timeline

Microlearning: Enhance Your Wellness and Reduce Stress

Microlearning: Teaching Innovation with AI

Microlearning: Design Learning Modules

Transcript

Análisis de

conglomerados

Introducción

Análisis de conglomerados En esta Lección se describe el método de k-means y los pasos para aplicarlo en Python. !Adelante!

Fundamentos y

motivación

Fundamentos y motivación

La idea básica del análisis de conglomerados es que los datos pueden descomponerse en algunos subconjuntos llamados conglomerados. Los métodos de conglomerados aprenden una hipótesis para asignar cada punto a un conglomerado o varios conglomerados; dos puntos pertenecen al mismo conglomerado si son similares entre sí, o asignar una medida de pertenencia a los distintos conglomerados (James, Witten, Hastie, y Tibshirani, 2023). Distintos métodos para el análisis de conglomerados utilizan distintas medidas de similitud.

Algoritmos de agrupamiento K medias

El algoritmo de k-medias es un método para la construcción de conglomerados. Se basa en la asignación de centroides que tiene como objetivo particionar un conjunto de n observaciones en k grupos disjuntos, de tal modo que la suma de las distancias al cuadrado de cada punto a su centroide (inercia o WCSS, within-cluster sum of squares) quede minimizada.

Cada grupo—conglomerado o clúster—se representa mediante la media aritmética de los puntos asignados a él, y el problema se formula como la búsqueda de los i que cumplen

minS i=1kx ૯ Si || x-i ||2,

Si es el conjunto de puntos del grupo i y ∥⋅∥ es la norma Euclidiana.

Algoritmos de agrupamiento K medias

El procedimiento consiste en tres fases principales:

1. Inicialización: se eligen k centroides iniciales, ya sea al azar o mediante esquemas como k-means + +.

2. Paso de asignación: cada punto se asigna al centroide más cercano según la distancia Euclidiana al cuadrado, definiendo los conjuntos.

3. Paso de actualización: se recalculan los centroides como la media de los puntos de cada Si.

Seguir Leyendo

Preprocesamiento y métricas de distancia para k-medias

El PCA suele formar parte del análisis exploratorio de datos, de ahí que conozcas su utilidad en estos procesos. El algoritmo de k-medias agrupa observaciones en k clusters minimizando la suma de las distancias al cuadrado entre cada punto y el centroide de su grupo. Por ello, es crucial alinear el preprocesamiento y la elección de la métrica de distancia (si bien k-medias tradicionalmente emplea la Euclidiana) con sus supuestos y limitaciones. El preprocesamiento de datos para el algoritmo de k medias debe considerar:

Detección y tratamiento de valores atípicos, pues los valores atípicos desplazan centroides y degradan la calidad del cluster. Puedes identificarlos a través de

Escalado de variables. Puedes aplicar

Preprocesamiento y métricas de distancia para k-medias

Estrategias para el tratamiento de valores atípicos puede incluir: eliminar, truncar o transformar (logaritmo) los valores. Selección de variables

  • Evitar variables altamente correlacionadas (redundancia).
  • Evitar variables con varianza casi nula (no aportan separación).
Inicialización de centroides
  • k-means++: inicia centroides dispersos para mejorar la convergencia.
  • Alternativa: múltiples arranques aleatorios y elegir la mejor partición.

Preprocesamiento y métricas de distancia para k-medias

El algoritmo clásico de k-medias asume distancia euclídea para que el centroide minimice la suma de cuadrados. Además de la distancia euclídea, se pueden emplear las siguientes métricas ( o adaptar en variantes de k-medias) según el tipo de datos y el significado de similitud:

  • Distancia Manhattan: suma de las diferencias absolutas en cada dimensión.
  • Distancia de Minkowski (Lᵖ): generaliza Euclídea (p=2) y Manhattan (p=1); p→∞ es Chebyshev.
  • Distancia Chebyshev: máxima diferencia absoluta entre coordenadas.
  • Distancia de Hamming: número de posiciones distintas en vectores binarios.
  • Distancia Coseno: mide el ángulo entre vectores, común en texto y datos de alta dimensión.
  • Distancia de correlación: 1 - coeficiente de correlación de Pearson, independiente de escala.
  • Distancia de Mahalanobis: considera la covarianza, penaliza diferencias en direcciones de baja varianza.
  • Distancia de Canberra: suma de razones de diferencias absolutas normalizadas, sensible a ceros.
  • Distancia de Jaccard: 1 - (|A∩B|/|A∪B|), para atributos binarios o conjuntos.

Interpretación y visualización de resultados

En el siguiente PDF revisarás a detalle la interpretación y visualización de resultados.

En el siguiente material didáctico fortalecerás los elementos revisados en la Lección

Conclusión

En esta sección te introdujiste al tema de análisis de conglomerados e identificaste los pasos claves para realizarlo en python a través de la librería scikit learn.

¡Felicidades!

Has concluido con

la Lección

James, G., Witten, D., Hastie, T. & Tibshirani, R. (2023). An Introduction to Statistical Learning: with Applications in Python (Springer Texts in Statistics). Springer Cham. https://doi.org/10.1007/978-3-031-38747-0Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A. https://doi.org/10.1098/rsta.2015.0202 Bibliografía Peña, D. (2013). Análisis de datos multivariantes. McGraw-Hill España. https://elibro.net/es/ereader/bibliotecauveg/50267?page=236 Scikit-learn Developers. (2025). Clustering [Examples]. In scikit-learn 1.7.0 documentation. Retrieved July 3, 2025, from https://scikit-learn.org/stable/auto_examples/cluster/index.html Mario Castro (2020). Introduction to clustering [Video]. Youtube.https://youtu.be/4i83TQ4GINY?si=X6A0K7puOLmoQfr7 NPTEL IIT Guwahati (2022) Lec 38: k-means clustering [Video]. Youtube. https://youtu.be/z7mlHoV1enk?si=MwI4F31FrV7Yx_BX Javi DataScience(2024) K-Means Clustering Tutorial | Python Machine Learning | Ciencia de datos e Inteligencia Artificial [Video]. Youtube https://www.youtube.com/watch?v=R4DHQs8hi0g Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., & Vanderplas, J. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12.

Autora: Nayeli González Novelo © UVEG. Derechos reservados. El contenido de este formato está sujeto a las disposiciones aplicables en materia de Propiedad Intelectual, por lo que no puede ser distribuido, ni transmitido, parcial o totalmente mediante cualquier medio, método o sistema impreso, electrónico o magnético, incluyendo el fotocopiado, la fotografía o la grabación, sin la autorización por escrito de la Universidad Virtual del Estado de Guanajuato. Este material propiedad de UVEG, integra aportes asistidos tecnológicamente (como IA, entre otros), los cuales fueron revisados y validados por el equipo UVEG, conforme a las disposiciones vigentes aplicables. Los recursos visuales y/o audiovisuales fueron tomados total y/o parcialmente de Freepik.

En los siguientes enlaces explica las ideas claves y menciona los principales métodos del análisis de conglomerados. Enlace Autor: Mario Castro Título: Introduction to clustering Autor: Daniel Peña Título: Análisis de datos multivariantes Sección a consultar: 219 y 220

Estos pasos se repiten iterativamente hasta que las asignaciones dejan de cambiar o la inercia intra-clúster se estabiliza, garantizando la convergencia a un óptimo local. La rapidez y eficacia heurística de este algoritmo lo han convertido en una herramienta muy popular en aplicaciones como segmentación de clientes, compresión de imágenes y análisis exploratorio de datos.

En los siguientes enlaces ganarás intuición sobre el algoritmo de k medias y para conocer los fundamentos teóricos del algoritmo de k medias Enlace Autor: NPTEL IIT Guwahati Título: Lec 38: k-means clustering Autor: Daniel Peña Título: Análisis de datos multivariantes Sección a consultar: 220.246

Estandarización (Z-score): centra cada variable en media 0 y escala según desviación estándar, logrando varianza unitaria. Normalización Min–Max (opcional): reescala linealmente los valores al rango [0, 1], útil cuando se requiere un intervalo fijo.

Método de Z-score; consiste en estandarizar los datos y señalar como valores atípicos aquellos cuyo score tiene valor absoluto mayor que 3. Método del rango IQR: consiste en calcular el rango intercuartílico IQR y señalar como valores atípicos aquellos valores menores que [Q1−1.5IQR y mayores que Q3+1.5IQR.

Autor: s.a. Título: kmeans_analysis.ipynb Autor: Javi Data Science Título: K-Means Clustering Tutorial | Python Machine Learning | Ciencia de datos e Inteligencia Artificial Autor: Statlearning Título: An Introduction to Statistical Learning Autor: scikit-learn developers Título: Clustering