Actividad 2.2. Modelos y arquitecturas para Big Data

Uso de Big Data para la toma de decisiones Actividad 2.2. Modelos y arquitecturas para Big Data

TFG/ TFM TÍTULO GRADO/MASTER

Autor: Daniel Alvarado Aguilar

XX/XX/20XX

Big Data involucra el uso de infraestructuras, tecnologías y servicios especiales que han sido creados para dar solución especifica al procesamiento de estos enormes conjuntos de datos provenientes de múltiples fuentes.Es por eso que se requiere de frameworks, modelos y arquitecturas, capaz de administrar, distribuir, controlar y procesar rápidamente los datos dentro de los arreglos de sistemas computacionales y de almacenamiento.

Antecedente

Modelos

01 Data Warehouse:

En esencia, se trata de una base de datos relacional que integra datos de múltiples fuentes dentro de una empresa. La creación de una data warehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

"Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

+ Info

Data Mart:

Un Data Mart es un almacén de datos orientado a un área específica, como por ejemplo, Ventas, Recursos Humanos u otros sectores en una organización. Por ello, también se le conoce como una base de información departamental. Este almacén permite que una empresa pueda acceder a datos claves de un área de forma sencilla, además de realizar diversas funciones

Inmon Model:

El Enfoque de diseño Inmon utiliza la forma normalizada para construir la estructura de la entidad, evitando la redundancia de datos tanto como sea posible. Esto da como resultado una identificación clara de los requisitos comerciales y la prevención de irregularidades en la actualización de datos.

+ Info

Data Vault

Método de modelado de bases de datos diseñado para proporcionar un almacenamiento histórico a largo plazo de los datos procedentes de múltiples sistemas operativos. También es un método de observación de datos históricos que aborda cuestiones como la auditoría, el rastreo de datos, la velocidad de carga y la resistencia a los cambios.

Kimball Model

Metodología empleada para la construcción de un almacén de datos, una colección de datos orientada a un determinado ámbito, integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza.

Está basado en cuatro principios básicos: • Centrarse en el negocio • Construir una infraestructura de información adecuada • Realizar entregas en incrementos significativos • Ofrecer la solución completa

+ Info

Data Lake

Sistema o repositorio de datos almacenados en su formato natural/bruto, normalmente blobs de objetos o archivos. Un Data Lake suele ser un almacén único de datos que incluye copias en bruto de los datos del sistema de origen, datos de sensores, datos sociales, etc., y datos transformados que se utilizan para tareas como la elaboración de informes, la visualización, el análisis avanzado y el aprendizaje automático.

Frameworks

02 Hadoop

Proyecto de código abierto de la Apache Software Foundation(ASF). Se conoce comúnmente como Vanilla. No posee ningún tipo de personalización. Su principal ventaja es la libertad de disponer del código fuente de las herramientas y de estudiar y modificar el comportamiento de los módulos en caso necesario.

Dos clasificaciones: Las que pueden ser desplegadas localmente sobre la infraestructura del cliente o en una nube, pero siempre mantenidas y administradas por los clientes. Y las distribuciones nativas de nubes públicas que los clientes no pueden ejecutar sobre su propia infraestructura de hardware.

+ Info

Spark:

Es un framework de código abierto, creado como una solución más avanzada, en comparación con Apache Hadoop. Spark implementa todas las operaciones utilizando la memoria de acceso aleatorio. Gracias a esto, Spark muestra un rendimiento rápido y permite procesar flujos de datos masivos.

MapReduce

Se refiere a dos tareas: El primero es el trabajo de mapa, que toma un conjunto de datos y lo convierte en otro conjunto de datos, donde los elementos individuales se dividen en tuplas de pares clave-valor. El trabajo de reducción toma la salida de un mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas.

Es un paradigma de programación que permite una escalabilidad masiva en cientos o miles de servidores en un clúster de Hadoop.

+ Info

Hive

Fue creado por Facebook para combinar la escalabilidad de uno de los frameworks de Big Data más populares. Es un motor que convierte las solicitudes SQL en cadenas de tareas MapReduce. Hive se puede integrar con Hadoop (como parte del servidor) para el análisis de grandes volúmenes de datos.

Storm

Es otra solución destacada, enfocada en trabajar con un gran flujo de datos en tiempo real. Las características clave de Storm son la escalabilidad y la capacidad de restauración rápida después de un tiempo de inactividad. Puede trabajar con esta solución con la ayuda de Java, así como también con Python, Ruby y Fancy.

+ Info

Samza

Es un marco de procesamiento de flujo con estado de Big Data que se desarrolló en conjunto con Kafka. El dúo está pensado para usarse donde se necesita un procesamiento rápido de una sola etapa.

Flink

Es un sólido marco de procesamiento de Big Data para el procesamiento de flujos y lotes. Utiliza procesamiento de flujo con estado como Apache Samza, pero también realiza ETL y procesamiento por lotes con una eficiencia decente.

+ Info

Heron

Está pensado para su uso en detección de spam en tiempo real, tareas ETL y análisis de tendencias. Heron es totalmente compatible con Storm y tiene un proceso de migración sencillo. Sus objetivos de diseño incluyen baja latencia, escalabilidad buena y predecible y fácil administración.

Kudu

Está diseñado para simplificar algunos procesos complejos en el ecosistema Hadoop. Es una solución similar a SQL, pensada para una combinación de lecturas y escrituras aleatorias y secuenciales.

Presto

Es una herramienta de consulta adaptable y flexible para un entorno de datos de múltiples inquilinos con diferentes tipos de almacenamiento.

+ Info

Arquitecturas

03 Data Mesh

Data Mesh es un paradigma arquitectónico que desbloquea los datos analíticos a escala; desbloquea rápidamente el acceso a un número cada vez mayor de conjuntos de datos distribuidos, para una proliferación de escenarios de consumo de datos cada vez mayor, como el aprendizaje automático, la analítica o las aplicaciones intensivas en el uso de datos en toda la organización.

Kappa

Se basa en mantener dos líneas de procesamiento diferentes, una para la capa batch y otra para la capa speed. Aborda el procesamiento cercano al tiempo real como el procesamiento continuo de datos, utilizando una única línea de procesamiento.

Consta de dos capas: stream processing (oreal-time) y serving Capa stream processing se encarga de las ejecuciones de trabajos en general. La capa serving permite la consulta de los resultados.

+ Info

Lakehouse

Un lakehouse es una arquitectura nueva y abierta que combina los mejores elementos de los Data Lakes y Data Warehouses. Los lakehouses son posibles gracias a un nuevo diseño del sistema: la implementación de estructuras de datos y funciones de gestión de datos similares a las de una data warehouse directamente sobre el almacenamiento en la nube de bajo coste en formatos abiertos.

+ Info

Lambda

Tiene tres capas principales: batch, speed y serving. Las consultas realizadas desde sistemas deback-end se ejecutan sobre los datos disponibles en la capa de servicio.

Los datos de entrada son enviados en paralelo, tanto a un sistema de procesamiento offline como a uno online.

+ Info

Data Fabric

Data Fabric es una capa de arquitectura que conecta los datos y los procesos analíticos. Data Fabric es un marco, una estructura o un tejido, y este símil se utiliza para entender cómo se entrelazan los datos y los procesos bajo este concepto. arquitectura unificada con servicios que corren por encima de ella y que ayudan a las empresas en la tarea de la gestión de datos.

Data Hub

Un Data Hub es una arquitectura de almacenamiento moderna, y centrada en los datos que permite a las empresas consolidarlos y compartirlos para potenciar las técnicas de análisis y las cargas de trabajo de AI u otros. Si aún se accede a los datos con conexiones de punto a punto con silos independientes, convertir su infraestructura en un Data Hub optimizará en gran medida el flujo de datos en toda la organización.

DataFrame

Un DataFrame es una estructura de datos que organiza los datos en una tabla bidimensional de filas y columnas, muy parecida a una hoja de cálculo. Los DataFrames son una de las estructuras de datos más utilizadas en la analítica de datos moderna porque son una forma flexible e intuitiva de almacenar y trabajar con los datos.

REFERENCIAS BIBLIOGRÁFICAS

Título

Santos, M. Y., & Costa, C. (2020). Big data: Concepts, warehousing, and analytics. River Publishers. Capítulo 5. Páginas 158 - 194. https://ebookcentral-proquest-com.wdg.biblio.udg.mx:8443/lib/wdgbiblio/detail.action?docID=6184637&query=Big+Data#.
López Murphy, J. J. & Zarza, G. (2017). La ingeniería del big data: cómo trabajar con datos. Editorial UOC. Capítulo 8. Páginas 127 – 145. https://elibro-net.wdg.biblio.udg.mx:8443/es/lc/udg/titulos/59093
Salazar, A. (2016, 01 de noviembre). Infraestructura para Big Data. Revista Digital Universitaria. 17(11). http://www.revista.unam.mx/vol.17/num11/art77/
The apache software foundation. (s. f.). Map Reduce Tutorial. Consultado el 01 de julio de 2022. https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html
SAS Institute Inc. (s. f). Hadoop ¿Qué es y porqué es importante? Consultado el 01 de julio de 2022. https://www.sas.com/es_mx/insights/big-data/hadoop.html
IBM. (s. f.). ¿Qué es MapReduce? Consultado el 01 de julio de 2022. https://www.ibm.com/mx-es/topics/mapreduce
Arias, E. (2022, 06 de junio). Diccionario de arquitecturas de datos. Todobi.com. https://todobi.com/diccionario-de-arquitecturas-de-datos/
PandaID.com. (2019, 02 de abril). Big Data – Procesos en tiempo real. https://www.pandaid.com/big-data-procesos-en-tiempo-real/
Complementaria:
Joyanes Aguilar, L. (2013). Pág. 153 – 175. https://udgmulti.bibliotecasdigitales.com/read/9786077077572/index
Pérez, María. (2015). Pág. 11 – 20. https://udg.bibliotecasdigitales.com/read/9786076224458/index

El 90% de la información que asimilamos nos llega a través de la vista? Los recursos visuales son de gran ayuda para reforzar tus clases: imágenes, ilustraciones, gifs, vídeos… No solo porque permanecen en la memoria, sino también porque son más atractivos y más fáciles de comprender.

¿Sabías que...