Want to make creations as awesome as this one?

Transcript

UNIVERSIDAD VIRTUAL DEL ESTADO DE GUANAJUATO

R3. Data Mining

x

empezar_

Juan Fabian Mejía Pérez21010605Análisis de datos v2Tania Lozano Hernández16/06/2024

x

El data mining, o minería de datos, es el proceso de descubrir patrones significativos, tendencias y relaciones ocultas o desconocidas dentro de grandes volúmenes de datos. Utiliza técnicas estadísticas y de inteligencia artificial para analizar conjuntos de datos complejos y extraer información útil que puede ser utilizada para la toma de decisiones estratégicas.

¿Qué es el data mining?

x

Los orígenes del data mining se remontan al cruce de disciplinas como la estadística, la inteligencia artificial y la gestión de bases de datos en las décadas de 1960 y 1970.

¿Cuáles son los orígenes del data mining?

+

info

En ese tiempo, surgieron técnicas como el análisis de clustering, la regresión y la clasificación, que sentaron las bases para las posteriores metodologías de data mining.

x

Las fuentes que pueden integrarse en proyectos de data mining incluyen bases de datos relacionales como MySQL y SQL Server, data warehouses para grandes volúmenes de datos históricos, archivos planos como CSV y Excel, data lakes que almacenan datos en su formato original, datos en tiempo real de IoT y redes sociales, datos de texto y documentos para análisis con NLP, datos geoespaciales como mapas y GPS, y otros específicos como datos financieros y registros médicos.

¿Cuáles son las fuentes que pueden ser integradas en el data mining?

¿Cómo son aplicados los métodos científicos en el data mining?

x

En el data mining, los métodos científicos se aplican a través de un proceso sistemático que incluye la formulación de preguntas de investigación, la recolección y preparación de datos, la selección de métodos y técnicas adecuadas (como clustering, regresión, clasificación, asociación, etc.), la interpretación de resultados y la validación de hallazgos. Se busca asegurar que los resultados sean reproducibles y válidos estadísticamente.

Herramientas para visualizar datos de resultados del data mining

x

Tableau: Es una herramienta de visualización de datos que permite crear gráficos interactivos, dashboards y reportes. Integra con diversas fuentes de datos y es muy utilizada en el ámbito empresarial y académico.Power BI: Desarrollado por Microsoft, Power BI es otra plataforma líder en visualización de datos. Permite conectar a múltiples fuentes de datos, crear visualizaciones dinámicas y compartir informes de manera colaborativa.RapidMiner: Aunque es conocido principalmente como una herramienta de minería de datos, RapidMiner también ofrece capacidades robustas de visualización de datos. Permite generar gráficos estadísticos, mapas de calor, y otros tipos de visualizaciones para explorar y comunicar los resultados del análisis de datos.

Cliente 1: Empresa de Retail

x

Una cadena de tiendas de retail busca optimizar sus operaciones y estrategias de marketing. Necesitan analizar datos de ventas diarias, inventario, y comportamiento de clientes para mejorar la segmentación de clientes, personalización de ofertas, y eficiencia en la gestión de inventario.

Base de conocimientoIntegración de resultados en sistemas CRM para personalización de ofertas y campañas de marketing.

Interfaz gráficaDashboard interactivo con Tableau para visualizar tendencias de ventas, análisis de inventario y comportamiento del cliente.

Módulo de evaluación de patronesAlgoritmos de asociación para descubrir patrones de compra.Clustering para segmentación de clientes.

Motor de minería de datosUtilización de herramientas como Microsoft SQL Server Analysis Services o IBM SPSS Modeler para análisis avanzado.

Fuente de datosVentas diarias desde POS (Point of Sale).Datos de inventario y proveedores.Datos de clientes y programas de fidelización.

Servidor para el déposito de datosData warehouse integrado con ETL (Extract, Transform, Load) para consolidar datos históricos y actuales.

Cliente 2: Compañía de Telecomunicaciones

x

Una empresa de telecomunicaciones desea mejorar la satisfacción del cliente y reducir la tasa de abandono. Para lograrlo, necesitan analizar datos de llamadas, uso de datos, facturación y rendimiento de red. El objetivo es predecir el churn de clientes, optimizar la red y ofrecer soporte técnico proactivo.

Base de conocimientoIntegración con sistemas de soporte técnico para recomendaciones automatizadas y resolución proactiva de problemas.

Interfaz gráficaPanel de control con Kibana para monitoreo en tiempo real de la red y visualización de datos de rendimiento.

Módulo de evaluación de patronesAnálisis de secuencias para detectar comportamientos de uso.Modelos de churn prediction para anticipar la pérdida de clientes.

Motor de minería de datosUso de Apache Spark para procesamiento de datos y análisis de big data.

Fuente de datosRegistro de llamadas y datos de uso de clientes.Información de red y rendimiento de servicios.Datos de facturación y pagos.

Servidor para el déposito de datosData lake para almacenar datos en tiempo real y batch, integrado con sistemas de almacenamiento distribuido como Hadoop.

Resumen comparativo

x

Cierre

x

En cuanto a los clientes presentados, ambos tienen potencial para aprovechar tecnologías como ERP's, CRM's, y la gestión de contenidos, además de contar con data warehouses y presencia en redes sociales. Esto indica un entorno rico en datos que puede ser explotado para mejorar la toma de decisiones estratégicas y la interacción con los clientes.Ante la competencia y el poder adquisitivo de los clientes, el diseño óptimo de la solución debe enfocarse en la integración fluida de múltiples fuentes de datos, la utilización de herramientas avanzadas de análisis predictivo y visualización, y la capacidad de generar insights accionables de manera rápida y efectiva. La flexibilidad y la capacidad de adaptación a las necesidades cambiantes del cliente serán clave para destacar frente a la competencia.Los estándares de la industria vistos en la arquitectura de data mining reflejan la importancia de la integración de datos, la calidad del análisis estadístico y la robustez de las herramientas de visualización. Estos estándares garantizan que las soluciones de minería de datos no solo sean precisas y eficaces, sino también escalables y capaces de manejar grandes volúmenes de datos de manera eficiente.Realizar el cuadro comparativo entre las dos arquitecturas me permitió comprender mejor las diferencias y similitudes entre los enfoques de minería de datos en diferentes industrias. Esto enriqueció mis perspectivas al mostrar cómo las necesidades del cliente pueden guiar la configuración de soluciones tecnológicas avanzadas.En conclusión, enfrentar este reto me ha brindado una experiencia valiosa para aplicar conceptos teóricos en un contexto práctico, y ha ampliado mi comprensión de las aplicaciones y estándares de la industria en el campo de la minería de datos.

Referencias

x

Estimacion y toma de decisiones mediante mineria de datos. (2011). En Netbiblo eBooks (pp. 245-266). https://doi.org/10.4272/978-84-9745-204-5.ch12Pérez, D. G. (2006). La metodología científica y la enseñanza de las ciencias : unas relaciones controvertidas. EnseñAnza de las Ciencias/Enseñanza de las Ciencias, 4(2), 111-121. https://doi.org/10.5565/rev/ensciencias.5206Banet, T. A. (2001b). La minería de datos, entre la estadística y la inteligencia artificial. Questiió: Quaderns D’Estadística, Sistemes, Informatica I Investigació Operativa, 25(3), 479-498. Recuperado de https://upcommons.upc.edu/bitstream/2099/4162/4/article.pdfWeber, R. (2000). Data Mining en la Empresa y en las Finanzas Utilizando Tecnologías Inteligentes. Recuperado de https://www.semanticscholar.org/paper/Data-Mining-en-la-Empresa-y-en-las-Finanzas-Weber/bd6bbe17c90af243c441ffde3767b31d28e3bf98Morros, R. S. (2013). Big Data : análisis de herramientas y soluciones. Recuperado de https://upcommons.upc.edu/bitstream/2099.1/19855/1/90807.pdf