Want to make creations as awesome as this one?

Transcript

Análisis de datos

R3. Data mining

Universidad Virtual del Estado de Guanajuato

Alumno: Pablo Alberto Hernández HernándezMatricula: 22012161Asesor: Miguel Alfonso López AlonsoFecha 12/09/2024

desarrollo

El data mining o minería de datos es el proceso de analizar grandes conjuntos de datos para descubrir patrones, relaciones y tendencias ocultas que no son inmediatamente obvios. Este proceso implica la extracción de información valiosa a partir de datos masivos con el fin de tomar decisiones más informadas. La minería de datos utiliza técnicas de estadística, aprendizaje automático, bases de datos y otros campos para procesar y transformar datos en conocimiento accionable. Es ampliamente utilizada en áreas como el marketing, la detección de fraudes, el análisis financiero y la predicción de comportamientos futuros.

¿Qué es el data mining?

  • Estadística: La minería de datos se deriva de técnicas estadísticas tradicionales que se utilizan para analizar datos y sacar conclusiones. Herramientas como la regresión y la correlación son fundamentales en la estadística y se utilizan también en data mining.
  • Inteligencia Artificial y Aprendizaje Automático: En la década de 1980, la inteligencia artificial comenzó a ganar popularidad, y con ella surgieron algoritmos que podían aprender de los datos, lo que impulsó el desarrollo de técnicas más avanzadas de minería de datos.

desarrollo

¿Cuáles son los orígenes del data mining?

Los orígenes del data mining se remontan a varios campos:

  • Bases de Datos: A medida que las bases de datos crecieron en tamaño durante las décadas de 1970 y 1980, la necesidad de técnicas para gestionar y analizar grandes volúmenes de datos también aumentó. Esto llevó al desarrollo de tecnologías que facilitaban la consulta y análisis eficiente de grandes cantidades de datos.
  • Almacenes de Datos y Big Data: El auge de los almacenes de datos en los años 90, y posteriormente el big data, expandió la capacidad de procesar y analizar volúmenes masivos de datos, sentando las bases para la minería de datos moderna.

DESARROLLO

¿Cuáles son las fuentes que pueden ser integradas en el data mining?

Existen múltiples fuentes de datos que pueden ser integradas en un proceso de data mining, entre ellas:

  • Bases de datos estructuradas: Información organizada en tablas y columnas, comúnmente almacenada en sistemas de bases de datos relacionales como MySQL, SQL Server u Oracle.
  • Datos no estructurados: Incluye textos, imágenes, videos, correos electrónicos, documentos, redes sociales y sitios web que no siguen una estructura rígida.
  • Almacenes de datos (Data warehouses): Repositorios de datos integrados de múltiples fuentes que facilitan el análisis y la minería de datos a gran escala.
  • Big Data: Grandes volúmenes de datos que provienen de múltiples fuentes como redes sociales, sensores IoT, logs de servidores, transacciones financieras y más. El data mining en big data requiere herramientas especializadas para el procesamiento y análisis, como Hadoop o Spark.
  • Formulación de hipótesis: Antes de realizar el análisis de los datos, se establecen preguntas o hipótesis que guiarán el proceso. Ejemplo: "¿Cuáles son los factores que más influyen en el comportamiento de compra de los clientes?"
  • Recolección de datos: Se seleccionan las fuentes de datos relevantes para responder a la hipótesis planteada.
  • Preprocesamiento: Los datos recolectados se limpian y transforman en formatos adecuados para el análisis, eliminando ruido o datos faltantes.
  • Modelado y análisis: Se aplican algoritmos y técnicas de minería de datos para encontrar patrones en los datos. Estos algoritmos pueden ser de clasificación, agrupamiento (clustering), regresión, entre otros.
  • Evaluación: Los resultados se evalúan para determinar si apoyan o refutan las hipótesis iniciales. Se utilizan métricas de rendimiento como precisión, recall o error para validar los modelos.
  • Comunicación de resultados: Se visualizan y comunican los resultados de forma comprensible para que puedan ser aplicados en la toma de decisiones.

DESARROLLO

¿Cómo son aplicados los métodos científicos en el data mining?

El data mining se basa en el método científico, que implica las siguientes etapas:

DESARROLLO

Investiga y describe al menos 3 herramientas para visualizar datos de resultados del data mining según la arquitectura

1. Tableau: Tableau es una de las herramientas más populares para la visualización de datos. Es conocida por su capacidad para crear gráficos interactivos y dashboards que pueden ayudar a los usuarios a explorar y entender los datos rápidamente. Permite la conexión a múltiples fuentes de datos, incluyendo grandes conjuntos de datos provenientes de bases de datos, hojas de cálculo, y sistemas de big data.Características clave: Visualización interactiva, soporte para big data, creación de dashboards personalizados, integración con diversas fuentes de datos.

2. Power BI: Power BI, de Microsoft, es otra herramienta de visualización de datos ampliamente utilizada. Permite a los usuarios crear informes y dashboards interactivos que facilitan la interpretación de resultados de data mining. Está diseñado para integrarse con múltiples fuentes de datos y también ofrece capacidades avanzadas de análisis y reporting.Características clave: Conectividad con diversas fuentes de datos, visualizaciones avanzadas, fácil integración con el ecosistema de Microsoft, soporte para análisis predictivo.3. D3.js: (Data-Driven Documents) es una biblioteca JavaScript para la visualización de datos en entornos web. Es muy flexible y permite crear gráficos altamente personalizados, lo que la hace ideal para quienes buscan visualizaciones interactivas y dinámicas que pueden ser integradas en sitios web.Características clave: Creación de visualizaciones personalizadas, compatibilidad con cualquier navegador, alto grado de interactividad, ideal para desarrolladores que necesitan un control total sobre sus visualizaciones.

a. Fuentes de datos b. Servidor para el depósito de datos c. Motor de minería de datos d. Módulo de evaluación de patrones e. Interfaz gráfica de usuario f. Base de conocimiento

Declara dos ejemplos hipotéticos donde se acercan dos clientes solicitando una solución de minería de datos, cada ejemplo debe ser distinto. Diseña un slide para cada arquitectura a elaborar de cada cliente, considerando los siguientes componentes

Ejemplo 1: TIENDA DE ANALÍTICA AVANZADA

Fuentes de datos:

  • ERP: Información sobre ventas, inventarios y costos de productos.
  • CRM: Datos demográficos, historial de compras y preferencias de clientes.
  • Redes Sociales: Reacciones y comentarios en publicaciones de productos.
  • Data Warehouse (existente): Historial de ventas y comportamiento de clientes.

Arquitectura Propuesta:

Cadena de tiendas que utiliza un ERP (Enterprise Resource Planning) para gestionar inventarios y finanzas, un CRM para sus datos de clientes, y tiene sus productos publicados en redes sociales como Facebook e Instagram, donde buscan conocer las reacciones de los usuarios (likes, shares, comentarios).

cLIENTE

  • Procesamiento de Lenguaje Natural (NLP): Para analizar comentarios y reacciones en redes sociales.
  • Modelos predictivos de comportamiento de compra: Algoritmos de recomendación basados en compras anteriores, gustos en redes sociales y segmentación por comportamiento.
  • Motor de minería de datos:

TIENDA DE ANALÍTICA AVANZADA

  • Servidor par a el depósito de datos:

Integración con el Data Warehouse existente para centralizar los datos estructurados del ERP, CRM y redes sociales.

  • Base de Reglas para Recomendaciones Personalizadas: Almacén de datos para mejorar recomendaciones basadas en la combinación de datos del CRM, ERP y redes sociales.
  • bASE DE CONOCIMIENTO
  • Dashboard interactivo con Tableau o Power BI: Visualizaciones de rendimiento de productos, ventas, e impacto de redes sociales. Filtros por regiones, productos, y segmentos de clientes.
  • Interfaz gráfica de usuario (GUI)

TIENDA DE ANALÍTICA AVANZADA

  • Módulo de evaluación de patrones:
  • Modelos de segmentación: Evaluación continua de segmentos de clientes basados en interacciones en redes sociales y patrones de compra.
  • Evaluación de popularidad de productos: Analiza qué productos generan más interacción en redes sociales y correlación con ventas.

TIENDA DE ANALÍTICA AVANZADA

  • VENTAJA COMPETITIVA

El diseño se diferencia de la competencia al integrar datos no estructurados (como redes sociales) con datos estructurados del ERP y CRM, ofreciendo insights sobre cómo las interacciones sociales impulsan las ventas. Además, se aprovechan infraestructuras existentes como el data warehouse para minimizar costos.

Ejemplo 2: detección de fraudes financieros

cliente

Banco que ya utiliza un ERP para la gestión de sus transacciones financieras y operativas, y dispone de un Data Warehouse para almacenar transacciones históricas. También tiene sistemas de Content Management para la gestión de documentos y comunicaciones internas. El objetivo es detectar fraudes en tiempo real y analizar tendencias de riesgos financieros.

  • fuentes de datos

detección de fraudes financieros

Arquitectura Propuesta

  • ERP: Datos de transacciones financieras en tiempo real y datos operativos.
  • Data Warehouse: Transacciones históricas y perfiles de clientes.
  • Sistema de Content Management (CMS): Documentos relacionados con riesgos financieros y casos previos de fraude.

Servidor para el depósito de datos

  • Data Lake en Hadoop: Integra datos en tiempo real del ERP con transacciones históricas del data warehouse y datos no estructurados del CMS, como documentos y análisis de riesgos.
  • Módulo de evaluación de patrones
  • Evaluación en tiempo real: Monitorización continua de las predicciones y análisis de tendencias de fraude con métricas como tasa de falsos positivos y recall.
  • Modelo de retroalimentación: Ajuste continuo de los modelos basados en nuevos datos y eventos de fraude detectados.

detección de fraudes financieros

  • Motor de minería de datos
  • Modelos predictivos supervisados: Algoritmos de detección de anomalías para detectar transacciones sospechosas en tiempo real.
  • Análisis de series temporales: Para identificar patrones de fraude basados en datos históricos y comportamientos recurrentes.

La solución se destaca al proporcionar un análisis en tiempo real de fraudes basado en la integración de datos históricos y operativos, con un módulo de retroalimentación continua para mejorar el rendimiento del sistema a medida que se detectan nuevos casos de fraude.

  • Ventaja Competitiva
  • Base de conocimiento

detección de fraudes financieros

  • Interfaz gráfica de usuario (GUI)
  • Repositorio de Casos de Fraude (CMS): Una base de datos que almacena casos previos de fraude, características clave, y reglas para mejorar la detección futura.
  • Dashboard en Power BI o Tableau: Visualización de tendencias de fraude, transacciones sospechosas en tiempo real, y un sistema de alertas. Ofrece filtrado por tipo de transacción, ubicación geográfica, y niveles de riesgo.

resumen comparativo

Conclusión personal

Al llevar al límite el reto y considerar que los clientes tienen infraestructuras robustas como ERP’s, CRM’s, Content Management y posiblemente data warehouses, mi enfoque ha sido integrar soluciones que maximicen el valor de los datos no estructurados y estructurados. El diseño óptimo para cada cliente se adapta a sus necesidades específicas, pero la verdadera diferencia se encuentra en la capacidad de integrar varias fuentes de datos y generar insights en tiempo real para facilitar la toma de decisiones.

Mejor diseño: Mi solución más competitiva es aquella que logra aprovechar la infraestructura existente de los clientes (ERP, CRM, Data Warehouse) y la complementa con tecnologías avanzadas de minería de datos, como análisis de lenguaje natural para redes sociales y detección de fraudes en tiempo real. Esto no solo mejora la eficiencia, sino que también permite ofrecer un valor agregado que va más allá de las soluciones estándar que podrían ofrecer otros competidores.

Definitivamente. Comparar diferentes arquitecturas y enfoques para resolver problemas específicos me permitió ver el alcance y la versatilidad del data mining. Además, me dio una mayor apreciación de cómo diferentes sistemas (ERP, CRM, redes sociales) pueden integrarse para obtener insights valiosos y específicos según las necesidades del cliente.

¿Consideras que realizar el cuadro comparativo enriqueció tus perspectivas respecto al data mining?

¿Qué te parecieron los estándares de la industria vistos en la arquitectura de data mining?

detección de fraudes financieros

¿Cómo te sentiste al realizar esta actividad?

Los estándares de la industria, como el uso de data warehouses, motores de minería de datos, y módulos de evaluación, son esenciales para crear soluciones eficientes y escalables. Entender estos componentes me ayudó a diseñar arquitecturas robustas y aplicables a diversos tipos de negocios, desde retail hasta finanzas.

Me sentí desafiado y a la vez motivado por la necesidad de aplicar los conocimientos adquiridos en Análisis de Datos y Big Data a escenarios realistas. La actividad me permitió profundizar en el diseño de arquitecturas de data mining y en cómo integrar diferentes sistemas para proporcionar soluciones personalizadas.

1.7.1 Evolución Historia de la Minería de Datos. (n.d.). Dataprix.com. Retrieved September 13, 2024, from https://www.dataprix.com/es/mineria-datos-aplicada-encuesta-permanente-hogares/171-evolucion-historia-mineria-datos Coppola, M. (2022, September 19). Qué es la minería de datos: conceptos, técnicas y ejemplos. Hubspot.es. https://blog.hubspot.es/marketing/mineria-datos ¿Qué es la minería de datos? (2024, August 5). Ibm.com. https://www.ibm.com/mx-es/topics/data-mining Torres, P. (2024, June 11). Minería de Datos o Data Mining: técnicas principales y ejemplos. Computing. https://www.computing.es/a-fondo/mineria-de-datos-o-data-mining-tecnicas-principales-y-ejemplos/

Referencias