Want to create interactive content? It’s easy in Genially!
Data Mining
JuanFa
Created on June 17, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Juan Fabian Mejía Pérez21010605 Análisis de datos v2 Tania Lozano Hernández 16/06/2024
empezar_
R3. Data Mining
UNIVERSIDAD VIRTUAL DEL ESTADO DE GUANAJUATO
¿Qué es el data mining?
El data mining, o minería de datos, es el proceso de descubrir patrones significativos, tendencias y relaciones ocultas o desconocidas dentro de grandes volúmenes de datos. Utiliza técnicas estadísticas y de inteligencia artificial para analizar conjuntos de datos complejos y extraer información útil que puede ser utilizada para la toma de decisiones estratégicas.
info
¿Cuáles son los orígenes del data mining?
Los orígenes del data mining se remontan al cruce de disciplinas como la estadística, la inteligencia artificial y la gestión de bases de datos en las décadas de 1960 y 1970.
¿Cuáles son las fuentes que pueden ser integradas en el data mining?
Las fuentes que pueden integrarse en proyectos de data mining incluyen bases de datos relacionales como MySQL y SQL Server, data warehouses para grandes volúmenes de datos históricos, archivos planos como CSV y Excel, data lakes que almacenan datos en su formato original, datos en tiempo real de IoT y redes sociales, datos de texto y documentos para análisis con NLP, datos geoespaciales como mapas y GPS, y otros específicos como datos financieros y registros médicos.
En el data mining, los métodos científicos se aplican a través de un proceso sistemático que incluye la formulación de preguntas de investigación, la recolección y preparación de datos, la selección de métodos y técnicas adecuadas (como clustering, regresión, clasificación, asociación, etc.), la interpretación de resultados y la validación de hallazgos. Se busca asegurar que los resultados sean reproducibles y válidos estadísticamente.
¿Cómo son aplicados los métodos científicos en el data mining?
Tableau: Es una herramienta de visualización de datos que permite crear gráficos interactivos, dashboards y reportes. Integra con diversas fuentes de datos y es muy utilizada en el ámbito empresarial y académico. Power BI: Desarrollado por Microsoft, Power BI es otra plataforma líder en visualización de datos. Permite conectar a múltiples fuentes de datos, crear visualizaciones dinámicas y compartir informes de manera colaborativa. RapidMiner: Aunque es conocido principalmente como una herramienta de minería de datos, RapidMiner también ofrece capacidades robustas de visualización de datos. Permite generar gráficos estadísticos, mapas de calor, y otros tipos de visualizaciones para explorar y comunicar los resultados del análisis de datos.
Herramientas para visualizar datos de resultados del data mining
Servidor para el déposito de datosData warehouse integrado con ETL (Extract, Transform, Load) para consolidar datos históricos y actuales.
Fuente de datosVentas diarias desde POS (Point of Sale). Datos de inventario y proveedores. Datos de clientes y programas de fidelización.
Motor de minería de datosUtilización de herramientas como Microsoft SQL Server Analysis Services o IBM SPSS Modeler para análisis avanzado.
Módulo de evaluación de patronesAlgoritmos de asociación para descubrir patrones de compra. Clustering para segmentación de clientes.
Interfaz gráficaDashboard interactivo con Tableau para visualizar tendencias de ventas, análisis de inventario y comportamiento del cliente.
Base de conocimientoIntegración de resultados en sistemas CRM para personalización de ofertas y campañas de marketing.
Una cadena de tiendas de retail busca optimizar sus operaciones y estrategias de marketing. Necesitan analizar datos de ventas diarias, inventario, y comportamiento de clientes para mejorar la segmentación de clientes, personalización de ofertas, y eficiencia en la gestión de inventario.
Cliente 1: Empresa de Retail
Servidor para el déposito de datosData lake para almacenar datos en tiempo real y batch, integrado con sistemas de almacenamiento distribuido como Hadoop.
Fuente de datosRegistro de llamadas y datos de uso de clientes. Información de red y rendimiento de servicios. Datos de facturación y pagos.
Motor de minería de datosUso de Apache Spark para procesamiento de datos y análisis de big data.
Módulo de evaluación de patronesAnálisis de secuencias para detectar comportamientos de uso. Modelos de churn prediction para anticipar la pérdida de clientes.
Interfaz gráficaPanel de control con Kibana para monitoreo en tiempo real de la red y visualización de datos de rendimiento.
Base de conocimientoIntegración con sistemas de soporte técnico para recomendaciones automatizadas y resolución proactiva de problemas.
Una empresa de telecomunicaciones desea mejorar la satisfacción del cliente y reducir la tasa de abandono. Para lograrlo, necesitan analizar datos de llamadas, uso de datos, facturación y rendimiento de red. El objetivo es predecir el churn de clientes, optimizar la red y ofrecer soporte técnico proactivo.
Cliente 2: Compañía de Telecomunicaciones
Resumen comparativo
En cuanto a los clientes presentados, ambos tienen potencial para aprovechar tecnologías como ERP's, CRM's, y la gestión de contenidos, además de contar con data warehouses y presencia en redes sociales. Esto indica un entorno rico en datos que puede ser explotado para mejorar la toma de decisiones estratégicas y la interacción con los clientes. Ante la competencia y el poder adquisitivo de los clientes, el diseño óptimo de la solución debe enfocarse en la integración fluida de múltiples fuentes de datos, la utilización de herramientas avanzadas de análisis predictivo y visualización, y la capacidad de generar insights accionables de manera rápida y efectiva. La flexibilidad y la capacidad de adaptación a las necesidades cambiantes del cliente serán clave para destacar frente a la competencia. Los estándares de la industria vistos en la arquitectura de data mining reflejan la importancia de la integración de datos, la calidad del análisis estadístico y la robustez de las herramientas de visualización. Estos estándares garantizan que las soluciones de minería de datos no solo sean precisas y eficaces, sino también escalables y capaces de manejar grandes volúmenes de datos de manera eficiente. Realizar el cuadro comparativo entre las dos arquitecturas me permitió comprender mejor las diferencias y similitudes entre los enfoques de minería de datos en diferentes industrias. Esto enriqueció mis perspectivas al mostrar cómo las necesidades del cliente pueden guiar la configuración de soluciones tecnológicas avanzadas. En conclusión, enfrentar este reto me ha brindado una experiencia valiosa para aplicar conceptos teóricos en un contexto práctico, y ha ampliado mi comprensión de las aplicaciones y estándares de la industria en el campo de la minería de datos.
Cierre
Estimacion y toma de decisiones mediante mineria de datos. (2011). En Netbiblo eBooks (pp. 245-266). https://doi.org/10.4272/978-84-9745-204-5.ch12Pérez, D. G. (2006). La metodología científica y la enseñanza de las ciencias : unas relaciones controvertidas. EnseñAnza de las Ciencias/Enseñanza de las Ciencias, 4(2), 111-121. https://doi.org/10.5565/rev/ensciencias.5206 Banet, T. A. (2001b). La minería de datos, entre la estadística y la inteligencia artificial. Questiió: Quaderns D’Estadística, Sistemes, Informatica I Investigació Operativa, 25(3), 479-498. Recuperado de https://upcommons.upc.edu/bitstream/2099/4162/4/article.pdf Weber, R. (2000). Data Mining en la Empresa y en las Finanzas Utilizando Tecnologías Inteligentes. Recuperado de https://www.semanticscholar.org/paper/Data-Mining-en-la-Empresa-y-en-las-Finanzas-Weber/bd6bbe17c90af243c441ffde3767b31d28e3bf98 Morros, R. S. (2013). Big Data : análisis de herramientas y soluciones. Recuperado de https://upcommons.upc.edu/bitstream/2099.1/19855/1/90807.pdf
Referencias