UNIVERSIDAD VIRTUAL DEL ESTADO DE GUANAJUATO
NOMBRE DEL ALUMNO: cÉSAR RAMÓN REJÓN PERERA
MATRÍCULA: 22002345
A)
NOMBRE DEL MÓDULO: Análisis de datos v2
NOMBRE DEL RETO: R3. Data Mining
FECHA DE ELABORACIÓN: 16/JUNIO/2024
EMPEZAR
data mining
indice
C) RESUMEN COMPARATIVO
B) desarrollo
C) ejemplo 1 cliente data mining
D) CIERRE
C) ejemplo 11 cliente data mining
E) REFERENCIAS
desarrollo
¿Qué es el data mining?
Data mining, también conocida como descubrimiento de conocimiento en datos(Knowledge Discovery in Databases). es el proceso de descubrir patrones y otra información valiosa de grandes conjuntos de datos.
¿Cuáles son los orígenes del data mining?
El data mining tiene sus raíces en diversas disciplinas que se han venido desarrollando a través del tiempo apartir de la decada de los 60´s del siglo XIX, mencionando algunas disciplinas: Estadística: La base para la mayoría de las técnicas de análisis de datos. Inteligencia Artificial y Aprendizaje Automático: Desarrollo de algoritmos capaces de aprender de los datos. Bases de Datos: Necesidad de gestionar y procesar grandes volúmenes de datos. Reconocimiento de Patrones: Identificación automática de patrones en los datos.
¿Cuáles son las fuentes que pueden ser integradas en el data mining?
- Bases de datos relacionales y no relacionales: SQL, NoSQL.
- Archivos de texto y CSV: Documentos estructurados y semiestructurados.
- Sistemas ERP y CRM: Datos de transacciones comerciales y relaciones con clientes.
- Redes sociales y datos web: Publicaciones, interacciones, y análisis de sentimientos.
- Sensores y dispositivos IoT: Datos en tiempo real de sensores y dispositivos conectados.
- Almacenes de datos (Data Warehouses): Repositorios centralizados de datos históricos.
¿Cómo son aplicados los métodos científicos en el data mining?
- Formulación de hipótesis: Basadas en el conocimiento del dominio.
- Recolección y preprocesamiento de datos: Limpieza y transformación de datos.
- Aplicación de algoritmos: Utilización de técnicas de aprendizaje supervisado y no supervisado.
- Evaluación de resultados: Validación y verificación mediante técnicas estadísticas.
- Interpretación y presentación: Comunicación de hallazgos mediante visualización y reportes.
desarrollo
Investiga y describe al menos 3 herramientas para visualizar datos de resultados del data mining según la arquitectura.
1.- Tableau: Arquitectura: Cliente-servidor Características: Conexión a múltiples fuentes de datos, capacidad de arrastrar y soltar para crear visualizaciones interactivas. 2.- Power BI: Arquitectura: Servicios en la nube y aplicaciones de escritorio Características: Integración con diversas fuentes de datos, visualizaciones interactivas, y capacidades de inteligencia de negocio. 3.-QlikView: Arquitectura: Cliente-servidor Características: Análisis asociativo, facilidad para crear dashboards personalizados, y capacidades de inteligencia empresarial.
c)
cliente 1 (venta online)
Problemática:
- Fuentes de datos
- Servidor para el deposito de datos
- Motor de mineria de datos
- Módulo de evaluación de patrones
- Interfaz gráfica de usuario
- Base de conocimiento
Un minorista en línea quiere analizar las interacciones de los clientes en su sitio web y redes sociales para mejorar la experiencia del usuario y aumentar las ventas. Desean entender mejor el comportamiento de los clientes, identificar patrones de compra, y analizar el feedback de los usuarios en redes sociales para adaptar sus estrategias de marketing.
c)
cliente ii (HOSPITAL PARTICULAR)
Problemática:
- Fuentes de datos
- Servidor para el deposito de datos
- Motor de mineria de datos
- Módulo de evaluación de patrones
- Interfaz gráfica de usuario
- Base de conocimiento
Una Hospital particular quiere analizar los registros de los pacientes para identificar patrones de enfermedades y mejorar el diagnóstico y tratamiento. El objetivo es mejorar la precisión del diagnóstico, personalizar los tratamientos, y predecir posibles brotes de enfermedades.
Resumen comparativo
cierre
conclusión personal y opinión para realizar un mejor diseño
El análisis detallado de los ejemplos y arquitecturas de minería de datos demuestra la importancia de una solución personalizada que considere las necesidades específicas de cada cliente. La elección de herramientas y arquitecturas debe basarse en factores como el tipo de datos, la infraestructura existente, y los objetivos del análisis. Mejor diseño: Para competir eficazmente, diseñaría una solución escalable y modular que pueda integrar datos de diversas fuentes, incluyendo ERP’s, CRM’s, y redes sociales. Utilizaría herramientas como Apache Spark para el procesamiento de grandes volúmenes de datos y Tableau o Power BI para la visualización interactiva. Esta solución ofrecería flexibilidad y capacidad de crecimiento, adaptándose a las necesidades cambiantes del cliente.
¿Cómo te sentiste al realizar esta actividad?
Esta actividad ha sido desafiante pero gratificante, proporcionando una comprensión más profunda de la implementación práctica de soluciones de minería de datos y la importancia de una arquitectura bien diseñada, pór otra parte pude darme cuenta que la minería de datos y el bigdata son temas sumamente amplios, que requieren muchas horas de estudio y práctica, debido a que se ramifica en diferentes especialidades.
¿Qué te parecieron los estándares de la industria vistos en la arquitectura de data mining?
Considero que los estándares de la industria son esenciales para asegurar la robustez y eficiencia de las soluciones de minería de datos ya que si nos damos cuenta las herramientas y arquitecturas probadas garantizan que las soluciones sean escalables, seguras, y capaces de manejar grandes volúmenes de datos sin perder el objetivo primordial para la mineria.
¿Consideras que realizar el cuadro comparativo enriqueció tus perspectivas respecto al data mining?
El cuadro comparativo ha enriquecido mi perspectiva, destacando las diferentes necesidades y soluciones para cada tipo de cliente. Este análisis resalta la importancia de la flexibilidad y adaptabilidad en el diseño de arquitecturas de minería de datos, sin embargo, pienso que más que el cuadro comparativo, la actividad en general abre mucho la perspectiva respecto a las aplicaciones de la minería de datos.
E)
referencias
¿Qué es la minería de datos? | IBM. (n.d.). https://www.ibm.com/mx-es/topics/data-mining
DMC Perú. (2016, October 21). Relación entre “Big Data”, Data Mining y Estadística [Video]. YouTube. https://www.youtube.com/watch?v=aS9v39Lz7BU
WideSkills. (2020). Data Mining Architecture | Data Mining tutorial. Recuperado 6 de junio de 2020, de https://www.wideskills.com/data-mining-tutorial/data-mining-architecture
De Ceupe, B. (2019, September 2). Ceupe. Ceupe. https://www.ceupe.com/blog/origen-del-data-mining.html?dt=1718583201462
Apache SparkTM - Unified Engine for large-scale data analytics. (n.d.). https://spark.apache.org/
Tableau: Software de análisis e inteligencia de negocios. (n.d.). Tableau. https://www.tableau.com/es-mx
Power BI: visualización de datos | Microsoft Power Platform. (n.d.). https://www.microsoft.com/es-es/power-platform/products/power-bi
césar rejón
QlikView – Analítica y cuadros de mando interactivos y eficaces | Qlik. (n.d.). Qlik. https://www.qlik.com/es-es/products/qlikview
Fuentes de datos
- Registros de transacciones web: Datos de compras, navegaciones y clicks.
- Datos de redes sociales: Likes, comentarios, shares, menciones en plataformas como Facebook, Twitter e Instagram.
- Datos de CRM: Información sobre clientes, historial de compras, preferencias.
Servidor para el depósito de datos
Data Warehouse en la nube: Un sistema como Amazon Redshift o Google BigQuery para almacenar y gestionar grandes volúmenes de datos de manera eficiente.
Motor de minería de datos
Apache Spark: Plataforma de procesamiento de datos rápida y de propósito general, ideal para manejar grandes volúmenes de datos y ejecutar algoritmos de minería de datos en paralelo.
Módulo de evaluación de patrones
Herramientas de análisis estadístico y aprendizaje automático: Algoritmos de clustering, clasificación y regresión para identificar segmentos de clientes, predecir ventas, y recomendar productos.
Interfaz gráfica de usuario
Tableau: Que como se mencionó anteriormente es una Herramienta de visualización de datos que permite crear dashboards interactivos y atractivos para que los gerentes puedan tomar decisiones basadas en datos en tiempo real que se han capturado hasta el momento.
Base de conocimiento
Repositorio de patrones de comportamiento del cliente: Un sistema de gestión del conocimiento que almacena los patrones identificados, las preferencias del cliente y las estrategias de marketing efectivas.
Servidor para el depósito de datos
Almacén de datos (Data Warehouse) on-premise: Un sistema de almacenamiento local robusto y seguro, como Oracle Data Warehouse o Microsoft SQL Server, para manejar datos sensibles y garantizar la privacidad.
Motor de minería de datos
R y Python: Lenguajes de programación ampliamente utilizados en el análisis de datos y la minería de datos, con numerosas bibliotecas para procesamiento estadístico y aprendizaje automático.
Fuentes de datos
- Historias clínicas electrónicas (EHR): Datos detallados de pacientes, incluyendo diagnósticos, tratamientos, y resultados.
- Registros de laboratorio: Resultados de pruebas diagnósticas y análisis clínicos.
- Datos de dispositivos médicos: Información de dispositivos médicos como monitores de glucosa, presión arterial, etc.
Base de conocimiento
Repositorio de conocimientos médicos y patrones de enfermedades: Un sistema de gestión del conocimiento que almacena los resultados de análisis, patrones de enfermedades y recomendaciones de tratamiento.
Interfaz gráfica de usuario
Power BI: Herramienta de visualización y análisis de datos que permite a los médicos y administradores de salud explorar datos, crear informes interactivos y dashboards personalizados.
Módulo de evaluación de patrones
Algoritmos de aprendizaje automático: Técnicas de detección de anomalías, clustering, y análisis predictivo para identificar patrones de enfermedades, predecir resultados de tratamientos, y detectar brotes de enfermedades.
Reto 3. Data Mining
Cesar Rejon
Created on June 16, 2024
Análisis de datos v2 - Reto 3 Unidad 2 - Por César Rejón
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Memories Presentation
View
Pechakucha Presentation
View
Decades Presentation
View
Color and Shapes Presentation
View
Historical Presentation
View
To the Moon Presentation
View
Projection Presentation
Explore all templates
Transcript
UNIVERSIDAD VIRTUAL DEL ESTADO DE GUANAJUATO
NOMBRE DEL ALUMNO: cÉSAR RAMÓN REJÓN PERERA
MATRÍCULA: 22002345
A)
NOMBRE DEL MÓDULO: Análisis de datos v2
NOMBRE DEL RETO: R3. Data Mining
FECHA DE ELABORACIÓN: 16/JUNIO/2024
EMPEZAR
data mining
indice
C) RESUMEN COMPARATIVO
B) desarrollo
C) ejemplo 1 cliente data mining
D) CIERRE
C) ejemplo 11 cliente data mining
E) REFERENCIAS
desarrollo
¿Qué es el data mining?
Data mining, también conocida como descubrimiento de conocimiento en datos(Knowledge Discovery in Databases). es el proceso de descubrir patrones y otra información valiosa de grandes conjuntos de datos.
¿Cuáles son los orígenes del data mining?
El data mining tiene sus raíces en diversas disciplinas que se han venido desarrollando a través del tiempo apartir de la decada de los 60´s del siglo XIX, mencionando algunas disciplinas: Estadística: La base para la mayoría de las técnicas de análisis de datos. Inteligencia Artificial y Aprendizaje Automático: Desarrollo de algoritmos capaces de aprender de los datos. Bases de Datos: Necesidad de gestionar y procesar grandes volúmenes de datos. Reconocimiento de Patrones: Identificación automática de patrones en los datos.
¿Cuáles son las fuentes que pueden ser integradas en el data mining?
¿Cómo son aplicados los métodos científicos en el data mining?
desarrollo
Investiga y describe al menos 3 herramientas para visualizar datos de resultados del data mining según la arquitectura.
1.- Tableau: Arquitectura: Cliente-servidor Características: Conexión a múltiples fuentes de datos, capacidad de arrastrar y soltar para crear visualizaciones interactivas. 2.- Power BI: Arquitectura: Servicios en la nube y aplicaciones de escritorio Características: Integración con diversas fuentes de datos, visualizaciones interactivas, y capacidades de inteligencia de negocio. 3.-QlikView: Arquitectura: Cliente-servidor Características: Análisis asociativo, facilidad para crear dashboards personalizados, y capacidades de inteligencia empresarial.
c)
cliente 1 (venta online)
Problemática:
Un minorista en línea quiere analizar las interacciones de los clientes en su sitio web y redes sociales para mejorar la experiencia del usuario y aumentar las ventas. Desean entender mejor el comportamiento de los clientes, identificar patrones de compra, y analizar el feedback de los usuarios en redes sociales para adaptar sus estrategias de marketing.
c)
cliente ii (HOSPITAL PARTICULAR)
Problemática:
Una Hospital particular quiere analizar los registros de los pacientes para identificar patrones de enfermedades y mejorar el diagnóstico y tratamiento. El objetivo es mejorar la precisión del diagnóstico, personalizar los tratamientos, y predecir posibles brotes de enfermedades.
Resumen comparativo
cierre
conclusión personal y opinión para realizar un mejor diseño
El análisis detallado de los ejemplos y arquitecturas de minería de datos demuestra la importancia de una solución personalizada que considere las necesidades específicas de cada cliente. La elección de herramientas y arquitecturas debe basarse en factores como el tipo de datos, la infraestructura existente, y los objetivos del análisis. Mejor diseño: Para competir eficazmente, diseñaría una solución escalable y modular que pueda integrar datos de diversas fuentes, incluyendo ERP’s, CRM’s, y redes sociales. Utilizaría herramientas como Apache Spark para el procesamiento de grandes volúmenes de datos y Tableau o Power BI para la visualización interactiva. Esta solución ofrecería flexibilidad y capacidad de crecimiento, adaptándose a las necesidades cambiantes del cliente.
¿Cómo te sentiste al realizar esta actividad?
Esta actividad ha sido desafiante pero gratificante, proporcionando una comprensión más profunda de la implementación práctica de soluciones de minería de datos y la importancia de una arquitectura bien diseñada, pór otra parte pude darme cuenta que la minería de datos y el bigdata son temas sumamente amplios, que requieren muchas horas de estudio y práctica, debido a que se ramifica en diferentes especialidades.
¿Qué te parecieron los estándares de la industria vistos en la arquitectura de data mining?
Considero que los estándares de la industria son esenciales para asegurar la robustez y eficiencia de las soluciones de minería de datos ya que si nos damos cuenta las herramientas y arquitecturas probadas garantizan que las soluciones sean escalables, seguras, y capaces de manejar grandes volúmenes de datos sin perder el objetivo primordial para la mineria.
¿Consideras que realizar el cuadro comparativo enriqueció tus perspectivas respecto al data mining?
El cuadro comparativo ha enriquecido mi perspectiva, destacando las diferentes necesidades y soluciones para cada tipo de cliente. Este análisis resalta la importancia de la flexibilidad y adaptabilidad en el diseño de arquitecturas de minería de datos, sin embargo, pienso que más que el cuadro comparativo, la actividad en general abre mucho la perspectiva respecto a las aplicaciones de la minería de datos.
E)
referencias
¿Qué es la minería de datos? | IBM. (n.d.). https://www.ibm.com/mx-es/topics/data-mining
DMC Perú. (2016, October 21). Relación entre “Big Data”, Data Mining y Estadística [Video]. YouTube. https://www.youtube.com/watch?v=aS9v39Lz7BU
WideSkills. (2020). Data Mining Architecture | Data Mining tutorial. Recuperado 6 de junio de 2020, de https://www.wideskills.com/data-mining-tutorial/data-mining-architecture
De Ceupe, B. (2019, September 2). Ceupe. Ceupe. https://www.ceupe.com/blog/origen-del-data-mining.html?dt=1718583201462
Apache SparkTM - Unified Engine for large-scale data analytics. (n.d.). https://spark.apache.org/
Tableau: Software de análisis e inteligencia de negocios. (n.d.). Tableau. https://www.tableau.com/es-mx
Power BI: visualización de datos | Microsoft Power Platform. (n.d.). https://www.microsoft.com/es-es/power-platform/products/power-bi
césar rejón
QlikView – Analítica y cuadros de mando interactivos y eficaces | Qlik. (n.d.). Qlik. https://www.qlik.com/es-es/products/qlikview
Fuentes de datos
Servidor para el depósito de datos
Data Warehouse en la nube: Un sistema como Amazon Redshift o Google BigQuery para almacenar y gestionar grandes volúmenes de datos de manera eficiente.
Motor de minería de datos
Apache Spark: Plataforma de procesamiento de datos rápida y de propósito general, ideal para manejar grandes volúmenes de datos y ejecutar algoritmos de minería de datos en paralelo.
Módulo de evaluación de patrones
Herramientas de análisis estadístico y aprendizaje automático: Algoritmos de clustering, clasificación y regresión para identificar segmentos de clientes, predecir ventas, y recomendar productos.
Interfaz gráfica de usuario
Tableau: Que como se mencionó anteriormente es una Herramienta de visualización de datos que permite crear dashboards interactivos y atractivos para que los gerentes puedan tomar decisiones basadas en datos en tiempo real que se han capturado hasta el momento.
Base de conocimiento
Repositorio de patrones de comportamiento del cliente: Un sistema de gestión del conocimiento que almacena los patrones identificados, las preferencias del cliente y las estrategias de marketing efectivas.
Servidor para el depósito de datos
Almacén de datos (Data Warehouse) on-premise: Un sistema de almacenamiento local robusto y seguro, como Oracle Data Warehouse o Microsoft SQL Server, para manejar datos sensibles y garantizar la privacidad.
Motor de minería de datos
R y Python: Lenguajes de programación ampliamente utilizados en el análisis de datos y la minería de datos, con numerosas bibliotecas para procesamiento estadístico y aprendizaje automático.
Fuentes de datos
Base de conocimiento
Repositorio de conocimientos médicos y patrones de enfermedades: Un sistema de gestión del conocimiento que almacena los resultados de análisis, patrones de enfermedades y recomendaciones de tratamiento.
Interfaz gráfica de usuario
Power BI: Herramienta de visualización y análisis de datos que permite a los médicos y administradores de salud explorar datos, crear informes interactivos y dashboards personalizados.
Módulo de evaluación de patrones
Algoritmos de aprendizaje automático: Técnicas de detección de anomalías, clustering, y análisis predictivo para identificar patrones de enfermedades, predecir resultados de tratamientos, y detectar brotes de enfermedades.