Análisis de
conglomerados
Introducción
Análisis de conglomerados
En esta Lección se describe el método de k-means y los pasos para aplicarlo en Python. !Adelante!
Fundamentos y
motivación
Fundamentos y motivación
La idea básica del análisis de conglomerados es que los datos pueden descomponerse en algunos subconjuntos llamados conglomerados. Los métodos de conglomerados aprenden una hipótesis para asignar cada punto a un conglomerado o varios conglomerados; dos puntos pertenecen al mismo conglomerado si son similares entre sí, o asignar una medida de pertenencia a los distintos conglomerados (James, Witten, Hastie, y Tibshirani, 2023). Distintos métodos para el análisis de conglomerados utilizan distintas medidas de similitud.
Algoritmos de agrupamiento K medias
El algoritmo de k-medias es un método para la construcción de conglomerados. Se basa en la asignación de centroides que tiene como objetivo particionar un conjunto de n observaciones en k grupos disjuntos, de tal modo que la suma de las distancias al cuadrado de cada punto a su centroide (inercia o WCSS, within-cluster sum of squares) quede minimizada.
Cada grupo—conglomerado o clúster—se representa mediante la media aritmética de los puntos asignados a él, y el problema se formula como la búsqueda de los i que cumplen
minS i=1kx ૯ Si || x-i ||2,
Si es el conjunto de puntos del grupo i y ∥⋅∥ es la norma Euclidiana.
Algoritmos de agrupamiento K medias
El procedimiento consiste en tres fases principales:
1. Inicialización: se eligen k centroides iniciales, ya sea al azar o mediante esquemas como k-means + +.
2. Paso de asignación: cada punto se asigna al centroide más cercano según la distancia Euclidiana al cuadrado, definiendo los conjuntos.
3. Paso de actualización: se recalculan los centroides como la media de los puntos de cada Si.
Seguir Leyendo
Preprocesamiento y métricas de distancia para k-medias
El PCA suele formar parte del análisis exploratorio de datos, de ahí que conozcas su utilidad en estos procesos.
El algoritmo de k-medias agrupa observaciones en k clusters minimizando la suma de las distancias al cuadrado entre cada punto y el centroide de su grupo.
Por ello, es crucial alinear el preprocesamiento y la elección de la métrica de distancia (si bien k-medias tradicionalmente emplea la Euclidiana) con sus supuestos y limitaciones. El preprocesamiento de datos para el algoritmo de k medias debe considerar:
Detección y tratamiento de valores atípicos, pues los valores atípicos desplazan centroides y degradan la calidad del cluster.
Puedes identificarlos a través de
Escalado de variables.
Puedes aplicar
Preprocesamiento y métricas de distancia para k-medias
Estrategias para el tratamiento de valores atípicos puede incluir: eliminar, truncar o transformar (logaritmo) los valores.
Selección de variables
- Evitar variables altamente correlacionadas (redundancia).
- Evitar variables con varianza casi nula (no aportan separación).
Inicialización de centroides
- k-means++: inicia centroides dispersos para mejorar la convergencia.
- Alternativa: múltiples arranques aleatorios y elegir la mejor partición.
Preprocesamiento y métricas de distancia para k-medias
El algoritmo clásico de k-medias asume distancia euclídea para que el centroide minimice la suma de cuadrados. Además de la distancia euclídea, se pueden emplear las siguientes métricas ( o adaptar en variantes de k-medias) según el tipo de datos y el significado de similitud:
- Distancia Manhattan: suma de las diferencias absolutas en cada dimensión.
- Distancia de Minkowski (Lᵖ): generaliza Euclídea (p=2) y Manhattan (p=1); p→∞ es Chebyshev.
- Distancia Chebyshev: máxima diferencia absoluta entre coordenadas.
- Distancia de Hamming: número de posiciones distintas en vectores binarios.
- Distancia Coseno: mide el ángulo entre vectores, común en texto y datos de alta dimensión.
- Distancia de correlación: 1 - coeficiente de correlación de Pearson, independiente de escala.
- Distancia de Mahalanobis: considera la covarianza, penaliza diferencias en direcciones de baja varianza.
- Distancia de Canberra: suma de razones de diferencias absolutas normalizadas, sensible a ceros.
- Distancia de Jaccard: 1 - (|A∩B|/|A∪B|), para atributos binarios o conjuntos.
Interpretación y visualización de resultados
En el siguiente PDF revisarás a detalle la interpretación y visualización de resultados.
En el siguiente material didáctico fortalecerás los elementos revisados en la Lección
Conclusión
En esta sección te introdujiste al tema de análisis de conglomerados e identificaste los pasos claves para realizarlo en python a través de la librería scikit learn.
¡Felicidades!
Has concluido con
la Lección
James, G., Witten, D., Hastie, T. & Tibshirani, R. (2023). An Introduction to Statistical Learning: with Applications in Python (Springer Texts in Statistics). Springer Cham. https://doi.org/10.1007/978-3-031-38747-0Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A. https://doi.org/10.1098/rsta.2015.0202 Bibliografía
Peña, D. (2013). Análisis de datos multivariantes. McGraw-Hill España. https://elibro.net/es/ereader/bibliotecauveg/50267?page=236
Scikit-learn Developers. (2025). Clustering [Examples]. In scikit-learn 1.7.0 documentation. Retrieved July 3, 2025, from https://scikit-learn.org/stable/auto_examples/cluster/index.html
Mario Castro (2020). Introduction to clustering [Video]. Youtube.https://youtu.be/4i83TQ4GINY?si=X6A0K7puOLmoQfr7
NPTEL IIT Guwahati (2022) Lec 38: k-means clustering [Video]. Youtube. https://youtu.be/z7mlHoV1enk?si=MwI4F31FrV7Yx_BX
Javi DataScience(2024) K-Means Clustering Tutorial | Python Machine Learning | Ciencia de datos e Inteligencia Artificial [Video]. Youtube https://www.youtube.com/watch?v=R4DHQs8hi0g
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., & Vanderplas, J. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12.
Autora: Nayeli González Novelo © UVEG. Derechos reservados. El contenido de este formato está sujeto a las disposiciones aplicables en materia de Propiedad Intelectual, por lo que no puede ser distribuido, ni transmitido, parcial o totalmente mediante cualquier medio, método o sistema impreso, electrónico o magnético, incluyendo el fotocopiado, la fotografía o la grabación, sin la autorización por escrito de la Universidad Virtual del Estado de Guanajuato. Este material propiedad de UVEG, integra aportes asistidos tecnológicamente (como IA, entre otros), los cuales fueron revisados y validados por el equipo UVEG, conforme a las disposiciones vigentes aplicables. Los recursos visuales y/o audiovisuales fueron tomados total y/o parcialmente de Freepik.
En los siguientes enlaces explica las ideas claves y menciona los principales métodos del análisis de conglomerados. Enlace
Autor: Mario Castro
Título: Introduction to clustering
Autor: Daniel Peña
Título: Análisis de datos multivariantes
Sección a consultar: 219 y 220
Estos pasos se repiten iterativamente hasta que las asignaciones dejan de cambiar o la inercia intra-clúster se estabiliza, garantizando la convergencia a un óptimo local.
La rapidez y eficacia heurística de este algoritmo lo han convertido en una herramienta muy popular en aplicaciones como segmentación de clientes, compresión de imágenes y análisis exploratorio de datos.
En los siguientes enlaces ganarás intuición sobre el algoritmo de k medias y para conocer los fundamentos teóricos del algoritmo de k medias Enlace
Autor: NPTEL IIT Guwahati
Título: Lec 38: k-means clustering
Autor: Daniel Peña
Título: Análisis de datos multivariantes
Sección a consultar: 220.246
Estandarización (Z-score): centra cada variable en media 0 y escala según desviación estándar, logrando varianza unitaria. Normalización Min–Max (opcional): reescala linealmente los valores al rango [0, 1], útil cuando se requiere un intervalo fijo.
Método de Z-score; consiste en estandarizar los datos y señalar como valores atípicos aquellos cuyo score tiene valor absoluto mayor que 3. Método del rango IQR: consiste en calcular el rango intercuartílico IQR y señalar como valores atípicos aquellos valores menores que [Q1−1.5IQR y mayores que Q3+1.5IQR.
Autor: s.a.
Título: kmeans_analysis.ipynb
Autor: Javi Data Science
Título: K-Means Clustering Tutorial | Python Machine Learning | Ciencia de datos e Inteligencia Artificial
Autor: Statlearning
Título: An Introduction to Statistical Learning
Autor: scikit-learn developers
Título: Clustering
ADP_L11
Producción UVEG
Created on March 23, 2026
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Essential Business Proposal
View
Project Roadmap Timeline
View
Step-by-Step Timeline: How to Develop an Idea
View
Artificial Intelligence History Timeline
View
Microlearning: Enhance Your Wellness and Reduce Stress
View
Microlearning: Teaching Innovation with AI
View
Microlearning: Design Learning Modules
Explore all templates
Transcript
Análisis de
conglomerados
Introducción
Análisis de conglomerados En esta Lección se describe el método de k-means y los pasos para aplicarlo en Python. !Adelante!
Fundamentos y
motivación
Fundamentos y motivación
La idea básica del análisis de conglomerados es que los datos pueden descomponerse en algunos subconjuntos llamados conglomerados. Los métodos de conglomerados aprenden una hipótesis para asignar cada punto a un conglomerado o varios conglomerados; dos puntos pertenecen al mismo conglomerado si son similares entre sí, o asignar una medida de pertenencia a los distintos conglomerados (James, Witten, Hastie, y Tibshirani, 2023). Distintos métodos para el análisis de conglomerados utilizan distintas medidas de similitud.
Algoritmos de agrupamiento K medias
El algoritmo de k-medias es un método para la construcción de conglomerados. Se basa en la asignación de centroides que tiene como objetivo particionar un conjunto de n observaciones en k grupos disjuntos, de tal modo que la suma de las distancias al cuadrado de cada punto a su centroide (inercia o WCSS, within-cluster sum of squares) quede minimizada.
Cada grupo—conglomerado o clúster—se representa mediante la media aritmética de los puntos asignados a él, y el problema se formula como la búsqueda de los i que cumplen
minS i=1kx ૯ Si || x-i ||2,
Si es el conjunto de puntos del grupo i y ∥⋅∥ es la norma Euclidiana.
Algoritmos de agrupamiento K medias
El procedimiento consiste en tres fases principales:
1. Inicialización: se eligen k centroides iniciales, ya sea al azar o mediante esquemas como k-means + +.
2. Paso de asignación: cada punto se asigna al centroide más cercano según la distancia Euclidiana al cuadrado, definiendo los conjuntos.
3. Paso de actualización: se recalculan los centroides como la media de los puntos de cada Si.
Seguir Leyendo
Preprocesamiento y métricas de distancia para k-medias
El PCA suele formar parte del análisis exploratorio de datos, de ahí que conozcas su utilidad en estos procesos. El algoritmo de k-medias agrupa observaciones en k clusters minimizando la suma de las distancias al cuadrado entre cada punto y el centroide de su grupo. Por ello, es crucial alinear el preprocesamiento y la elección de la métrica de distancia (si bien k-medias tradicionalmente emplea la Euclidiana) con sus supuestos y limitaciones. El preprocesamiento de datos para el algoritmo de k medias debe considerar:
Detección y tratamiento de valores atípicos, pues los valores atípicos desplazan centroides y degradan la calidad del cluster. Puedes identificarlos a través de
Escalado de variables. Puedes aplicar
Preprocesamiento y métricas de distancia para k-medias
Estrategias para el tratamiento de valores atípicos puede incluir: eliminar, truncar o transformar (logaritmo) los valores. Selección de variables
- Evitar variables altamente correlacionadas (redundancia).
- Evitar variables con varianza casi nula (no aportan separación).
Inicialización de centroidesPreprocesamiento y métricas de distancia para k-medias
El algoritmo clásico de k-medias asume distancia euclídea para que el centroide minimice la suma de cuadrados. Además de la distancia euclídea, se pueden emplear las siguientes métricas ( o adaptar en variantes de k-medias) según el tipo de datos y el significado de similitud:
Interpretación y visualización de resultados
En el siguiente PDF revisarás a detalle la interpretación y visualización de resultados.
En el siguiente material didáctico fortalecerás los elementos revisados en la Lección
Conclusión
En esta sección te introdujiste al tema de análisis de conglomerados e identificaste los pasos claves para realizarlo en python a través de la librería scikit learn.
¡Felicidades!
Has concluido con
la Lección
James, G., Witten, D., Hastie, T. & Tibshirani, R. (2023). An Introduction to Statistical Learning: with Applications in Python (Springer Texts in Statistics). Springer Cham. https://doi.org/10.1007/978-3-031-38747-0Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A. https://doi.org/10.1098/rsta.2015.0202 Bibliografía Peña, D. (2013). Análisis de datos multivariantes. McGraw-Hill España. https://elibro.net/es/ereader/bibliotecauveg/50267?page=236 Scikit-learn Developers. (2025). Clustering [Examples]. In scikit-learn 1.7.0 documentation. Retrieved July 3, 2025, from https://scikit-learn.org/stable/auto_examples/cluster/index.html Mario Castro (2020). Introduction to clustering [Video]. Youtube.https://youtu.be/4i83TQ4GINY?si=X6A0K7puOLmoQfr7 NPTEL IIT Guwahati (2022) Lec 38: k-means clustering [Video]. Youtube. https://youtu.be/z7mlHoV1enk?si=MwI4F31FrV7Yx_BX Javi DataScience(2024) K-Means Clustering Tutorial | Python Machine Learning | Ciencia de datos e Inteligencia Artificial [Video]. Youtube https://www.youtube.com/watch?v=R4DHQs8hi0g Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., & Vanderplas, J. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12.
Autora: Nayeli González Novelo © UVEG. Derechos reservados. El contenido de este formato está sujeto a las disposiciones aplicables en materia de Propiedad Intelectual, por lo que no puede ser distribuido, ni transmitido, parcial o totalmente mediante cualquier medio, método o sistema impreso, electrónico o magnético, incluyendo el fotocopiado, la fotografía o la grabación, sin la autorización por escrito de la Universidad Virtual del Estado de Guanajuato. Este material propiedad de UVEG, integra aportes asistidos tecnológicamente (como IA, entre otros), los cuales fueron revisados y validados por el equipo UVEG, conforme a las disposiciones vigentes aplicables. Los recursos visuales y/o audiovisuales fueron tomados total y/o parcialmente de Freepik.
En los siguientes enlaces explica las ideas claves y menciona los principales métodos del análisis de conglomerados. Enlace Autor: Mario Castro Título: Introduction to clustering Autor: Daniel Peña Título: Análisis de datos multivariantes Sección a consultar: 219 y 220
Estos pasos se repiten iterativamente hasta que las asignaciones dejan de cambiar o la inercia intra-clúster se estabiliza, garantizando la convergencia a un óptimo local. La rapidez y eficacia heurística de este algoritmo lo han convertido en una herramienta muy popular en aplicaciones como segmentación de clientes, compresión de imágenes y análisis exploratorio de datos.
En los siguientes enlaces ganarás intuición sobre el algoritmo de k medias y para conocer los fundamentos teóricos del algoritmo de k medias Enlace Autor: NPTEL IIT Guwahati Título: Lec 38: k-means clustering Autor: Daniel Peña Título: Análisis de datos multivariantes Sección a consultar: 220.246
Estandarización (Z-score): centra cada variable en media 0 y escala según desviación estándar, logrando varianza unitaria. Normalización Min–Max (opcional): reescala linealmente los valores al rango [0, 1], útil cuando se requiere un intervalo fijo.
Método de Z-score; consiste en estandarizar los datos y señalar como valores atípicos aquellos cuyo score tiene valor absoluto mayor que 3. Método del rango IQR: consiste en calcular el rango intercuartílico IQR y señalar como valores atípicos aquellos valores menores que [Q1−1.5IQR y mayores que Q3+1.5IQR.
Autor: s.a. Título: kmeans_analysis.ipynb Autor: Javi Data Science Título: K-Means Clustering Tutorial | Python Machine Learning | Ciencia de datos e Inteligencia Artificial Autor: Statlearning Título: An Introduction to Statistical Learning Autor: scikit-learn developers Título: Clustering