Want to create interactive content? It’s easy in Genially!
Ramirez_Jorge_R3_U2
JORGE ELIOTT RAMIREZ GUARDADO
Created on March 2, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
ANÁLISIS DE DATOS RETO 3. DATA MINING
UNIVERSIDAD VIRTUAL DEL ESTADO DE GUANAJUATO
NOMBRE DEL ALUMNO: JORGE ELIOTT RAMÍREZ GUARDADO MATRÍCULA DEL ALUMNO: 22007769 NOMBRE DEL ASESOR: ELISEO AYALA VALDÉS FECHA DE ELABORACIÓN: FEBRERO DE 2025
Data Mining
¿Qué es el Data Mining?
El Data Mining (Minería de Datos) es el proceso de descubrir patrones, tendencias y relaciones significativas en grandes conjuntos de datos mediante técnicas de estadística, aprendizaje automático e inteligencia artificial. Su objetivo es transformar datos en conocimiento útil para la toma de decisiones en diversas áreas como negocios, ciencia, salud y finanzas.
Origenes del Data Mining
Estadística
Desde el siglo XIX, se han desarrollado métodos estadísticos para analizar datos y encontrar correlaciones.
Aprendizaje Automático
En la década de 1950, se crearon los primeros algoritmos de inteligencia artificial, lo que permitió la automatización del análisis de datos.
Bases de datos
En los años 70 y 80, el almacenamiento y recuperación eficiente de datos masivos en bases de datos relacionales impulsó el desarrollo de técnicas de minería de datos.
Big Data
En la actualidad, el crecimiento exponencial de los datos y el poder de procesamiento han hecho que el Data Mining sea una disciplina esencial.
Fuentes
Las fuentes de datos que pueden integrarse en Data Mining incluyen:
Bases de datos Relacionales (SQL)
Bases de datos No Relacionales (NoSQL)
Archivos de Texto y Documentos
Registros de Transacciones
Sensores y Dispositivos IoT
Redes Sociales y Web Scraping
Método científico en el Data Mining
Formulación de la hipótesis
Recolección y limpieza de datos
Exploración y preprocesamiento
Método científico en el Data Mining
Aplicación de modelos y algoritmos
Evaluación y validación
Interpretación y comunicación de resultados
Visualización de datos
Herramientas para visualizar resultados
Tableau
Es una herramienta de Business Intelligence (BI) que permite la visualización interactiva de datos.
Power BI
Desarrollada por Microsoft, permite analizar datos desde múltiples fuentes, crear informes dinámicos y compartir insights en la nube o en aplicaciones locales.
Matplotlib / Seaborn
Son librerías de Python ampliamente utilizadas para la visualización de datos en Data Mining.
Arquitectura
Módulo de Evaluación de Patrones
- Validación de modelos con métricas como MAE (Mean Absolute Error) y RMSE (Root Mean Square Error).
- Monitoreo continuo con actualización de modelos en función de datos recientes.
- Dashboard interactivo en Power BI o Tableau para visualizar predicciones y recomendaciones de inventario.
- Reportes automáticos enviados a gerentes de logística.
- Repositorio con modelos entrenados, reglas de negocio y reportes históricos.
- Documentación de patrones identificados para la mejora continua.
Fuentes de Datos
- Base de datos relacional con registros de ventas (SQL Server).
- Datos de tendencias de mercado extraídos de redes sociales mediante web scraping.
- Sensores de stock en tiempo real en los almacenes.
- Data Lake en AWS S3 para almacenar datos estructurados y no estructurados.
- Data Warehouse en Google BigQuery para consultas analíticas rápidas.
- Algoritmos de Machine Learning (Regresión, Random Forest, XGBoost) para analizar patrones de compra y predecir demanda.
- Procesamiento de datos en Apache Spark para manejar grandes volúmenes de datos.
Predicción de Demanda de Productos en Empresa de Retail
Ejemplo 1
Una cadena de supermercados busca optimizar su inventario y evitar desabastos o sobrealmacenamiento. Quiere predecir la demanda de productos en diferentes ubicaciones basándose en datos históricos de ventas, estacionalidad y tendencias del mercado.
Arquitectura
Módulo de Evaluación de Patrones
- Generación de alertas cuando una transacción presenta alto riesgo de ser fraudulenta.
- Uso de métricas como AUC-ROC y F1-Score para evaluar precisión del modelo.
- Plataforma web para el equipo de seguridad bancaria con visualización en Grafana.
- Panel de control con alertas y reportes en tiempo real.
- Registro de patrones de fraude para mejorar modelos futuros.
- Documentación de reglas antifraude basada en casos históricos.
Fuentes de Datos
- Registros de transacciones bancarias almacenadas en una base de datos NoSQL (MongoDB).
- Datos en tiempo real de pagos con tarjetas de crédito y débito.
- Información del comportamiento de clientes en la banca en línea y móvil.
- Hadoop HDFS para almacenar grandes volúmenes de datos históricos.
- Apache Kafka para el procesamiento de flujos de datos en tiempo real.
- Algoritmos de Redes Neuronales y SVM (Support Vector Machines) para detectar anomalías en transacciones.
- Aprendizaje supervisado con datos de fraudes pasados y nuevas transacciones en tiempo real.
Detección de Fraude en Transacciones en un Banco
Ejemplo 2
Un banco necesita detectar transacciones fraudulentas en tiempo real para reducir riesgos y mejorar la seguridad de los clientes.
Resumen comparativo
Conclusiones
¿Cuál será tu mejor diseño?
¿Cómo te sentiste al realizar esta actividad?
¿Qué te parecieron los estándares de la industria vistos en la arquitectura de Data Mining?
¿Consideras que realizar el cuadro comparativo enriqueció tus perspectivas respecto al Data Mining?
Referencias
Bibliografía
- Cérquides J.R. (2003) Data Warehouse.
- Software y Soluciones de Analítica [SAS]. (2019). ¿Qué es la minería de datos? Recuperado el 28 de febrero de 2025, de https://www.sas.com/es_mx/insights/analytics/data-mining.html
- Universidad de Alcalá. (2018). ¿Sabes lo que es el Data Mining? Recuperado 28 de febrero de 2025 de https://www.master-data-scientist.com/que-es-data-mining/
- WideSkills. (2020). Data Mining Architecture | Data Mining tutorial. Recuperado 28 de febrero de 2025, de https://www.wideskills.com/data-mining-tutorial/data-mining-architecture
Datos de interacciones, comentarios y tendencias en redes sociales. Ejemplos: • Publicaciones en redes sociales. • Comentarios y reseñas en sitios web. • Información de sitios web. Uso en Data Mining: • Análisis de sentimiento para medir la opinión pública sobre marcas o productos. • Identificación de tendencias virales en redes sociales. • Segmentación de audiencias y estrategias de marketing digital basadas en interacciones.
Redes Sociales y Web Scraping
Datos recopilados de sensores en tiempo real, como dispositivos de medición climática o wearables. Ejemplos: • Sensores de temperatura y humedad en fábricas. • Dispositivos médicos como smartwatches. • Cámaras de seguridad con análisis de movimiento. Uso en Data Mining: • Análisis predictivo para mantenimiento de maquinaria industrial. • Monitoreo de salud en pacientes con dispositivos inteligentes. • Control y optimización de recursos energéticos en edificios inteligentes.
Sensores y Dispositivos IoT
Datos generados por sistemas de ventas, pagos y operaciones comerciales. Ejemplos: • Sistemas de ventas POS (Point of Sale) • Registros de pagos electrónicos • Facturación electrónicaUso en Data Mining: • Identificación de patrones de compra y predicción de demanda. • Detección de fraudes mediante el análisis de transacciones sospechosas. • Creación de modelos de segmentación de clientes según su historial de compras.
Registros de Transacciones
Datos almacenados en archivos planos o documentos digitales, que pueden contener información no estructurada.Ejemplos: • Archivos CSV y TXT • Documentos PDF, Word y XML • JSON (para transmisión de datos)Uso en Data Mining: • Extracción de datos desde documentos legales, contratos o informes financieros. • Análisis de texto para identificar tendencias o sentimientos en documentos extensos. • Conversión de texto en información estructurada mediante técnicas de procesamiento de lenguaje natural (NLP).
Archivos de texto
Almacenan datos en estructuras más flexibles, como documentos, grafos o pares clave-valor. No siguen un esquema rígido como las bases de datos relacionales.Ejemplos: • MongoDB (documentos JSON) • Neo4j (base de datos de grafos) • Redis (almacenamiento clave-valor) • Cassandra (base de datos distribuida)Uso en Data Mining: • Manejo eficiente de datos no estructurados, como logs de servidores o redes sociales. • Útiles en análisis de relaciones complejas, como redes de contactos o recomendaciones personalizadas. • Permiten escalabilidad y procesamiento de datos en tiempo real.
Bases de datos NoSQL
Utilizan un modelo estructurado con relaciones definidas entre los datos.Ejemplos: • MySQL • PostgreSQL • Microsoft SQL Server • Oracle DatabaseUso en Data Mining: • Se utilizan para realizar consultas avanzadas sobre grandes volúmenes de datos. • Permiten encontrar patrones en transacciones comerciales o registros históricos. • Son ideales para modelar información de clientes, ventas y procesos empresariales.
Bases de datos SQL
Antes de aplicar modelos complejos, se realiza un análisis exploratorio para identificar patrones, correlaciones y tendencias iniciales en los datos.
Antes de iniciar el análisis de datos, es fundamental definir qué se quiere descubrir. Se establecen hipótesis o preguntas clave que guían el proceso de minería de datos.
Los datos provienen de múltiples fuentes y suelen contener errores, valores faltantes o datos irrelevantes. En esta etapa, se recopilan y preparan para su análisis.
Los hallazgos del análisis deben ser comprensibles y útiles para la toma de decisiones. Se presentan mediante informes, gráficos y dashboards interactivos.
Los modelos deben ser evaluados para comprobar su precisión y confiabilidad. Se usan métricas para medir su rendimiento.
Aquí se implementan modelos matemáticos y algoritmos de Machine Learning para encontrar patrones ocultos en los datos.
Definitivamente sí. El cuadro comparativo me permitió ver cómo distintas arquitecturas pueden adaptarse a diferentes industrias y cómo cada componente impacta en la efectividad de la solución.
La mejor arquitectura será aquella que se adapte perfectamente a las necesidades del cliente, aproveche al máximo sus recursos disponibles y brinde insights de valor en tiempo real.
Me llamó la atención cómo las arquitecturas actuales buscan una combinación de almacenamiento distribuido, machine learning y visualización de datos, lo que hace que el proceso de minería sea rápido y efectivo.
Me pareció una actividad muy interesante y desafiante, ya que requirió un pensamiento estructurado para diseñar arquitecturas que fueran funcionales, escalables y eficientes.