Want to create interactive content? It’s easy in Genially!

Get started free

Actividad 2.2. Modelos y arquitecturas para Big Data

Gaby Murguia

Created on September 22, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Happy Holidays Video

Elves Christmas video

HALLOWEEN VIDEO MOBILE

Halloween Illustrated Video

Halloween video

Birthday Party Invitation

Video Tutorial Mobile

Transcript

Uso de Big Data para la toma de decisiones Unidad 2. Infraestructura física y lógica del Big Data, casos de aplicación

Actividad 2.2. Modelos y arquitecturas para Big Data

Nancy Ruiz Monroy | Claudia Gabriela Murguia Campos | 07/02/24

¿Que es BIG DATA?

Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.

Arquitecturas de BIG DATA

La arquitectura big data (o de macrodatos) tiene como principal objetivo el análisis y procesamiento de grandes volúmenes de datos que no pueden administrarse adecuadamente con los medios convencionales, pues se superan las capacidades tradicionales del hardware para su almacenamiento, gestión y tratamiento. Las arquitecturas se basan en la combinación de diferentes módulos, que pueden variar de acuerdo con las necesidades y requisitos de un proyecto. Los siguientes cuatro ejes están presentes dentro de cualquier tipo de arquitectura de macrodatos. Extracción: recopilación de datos dentro del sistema. Procesamiento: almacenamiento de la información dentro de bases de datos Explotación: el proceso de análisis de los datos. Visualización: diseño y síntesis de la información a través de gráficos o tableros.

Lambda: En una arquitectura lambda, los datos de entrada son enviados en paralelo, tanto a un sistema de procesamiento offline como a uno online. Ambas líneas de procesamiento ejecutan la misma lógica de negocio y vuelcan sus resultados en una capa de servicio.Las consultas realizadas desde sistemas de back-end se ejecutan sobre los datos disponibles en la capa de servicio, reconciliando los resultados producidos por ambas líneas de ejecución.

Kappa: La arquitectura kappa se basa en mantener dos líneas de procesamiento diferentes, una para la capa batch y otra para la capa speed.La propuesta detrás de kappa es abordar tanto el procesamiento cercano al tiempo real como el procesamiento continuo de datos, utilizando una única línea de procesamiento. Es por esto que la arquitectura kappa consta solo de dos capas: stream processing (o real-time) y serving. La capa stream processing se encarga de las ejecuciones de trabajos en general, normalmente para dar soporte al procesamiento cercano al tiempo real. Por su parte, la capa serving permite la consulta de los resultados.

MapReduce: El término MapReduce se refiere a dos tareas separadas y distintas que realizan los programas; el primero es el trabajo de mapa, que toma un conjunto de datos y lo convierte en otro conjunto de datos, donde los elementos individuales se dividen en tuplas de pares clave-valor.El trabajo de reducción toma la salida de un mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas. Como implica la secuencia del nombre MapReduce, el trabajo de reducción siempre se realiza después del trabajo de mapa.

Tipos de Arquitecturas

Frameworks para BIG DATA

Son conjuntos de herramientas y bibliotecas diseñadas específicamente para manejar grandes volúmenes de datos de manera eficiente. Estos frameworks son fundamentales para lidiar con la complejidad y el tamaño de los datos en la era digital, y permiten realizar análisis y operaciones en estos conjuntos de datos masivos de manera rápida y efectiva. Estos frameworks resuelven una serie de problemas clave en el procesamiento de Big Data, incluyendo:
  • Escalabilidad: Permiten el procesamiento de datos en clústeres de servidores.
  • Paralelización: Dividen las tareas en partes más pequeñas y las procesan en paralelo.
  • Tolerancia a fallos: Ofrecen mecanismos para manejar errores y fallos en el sistema.
  • Eficiencia: Optimizan el uso de recursos.
  • Abstracción de complejidad: Simplifican la programación al proporcionar una interfaz
de alto nivel para realizar operaciones en Big Data.

Apache Spark

Hadoop

Elasticsearch

Es un motor de procesamiento de datos de código abierto realmente rápido. se considera el primer software open source que hace la programación distribuida (muy en esencia, consiste en distribuir el trabajo entre un grupo de ordenadores, “cluster”, que trabajan como uno) realmente accesible a los científicos de datos. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. pudiendo ser, según el programa, hasta 100 veces más rápido en memoria o 10 veces más en disco que Hadoop MapReduce.

Esta herramienta Big Data open source se considera el framework estándar para el almacenamiento de grandes volúmenes de datos; se usa también para analizar y procesar. utiliza modelos de programación simples para el almacenamiento y procesamiento distribuido de grandes conjuntos de datos en clusters, dando redundancia para no perder nada y, al mismo tiempo, aprovechando muchos procesos a la vez. Dispone de un sistema de archivos distribuido en cada nodo del cluster y soporta diferentes sistemas operativos.

Es una potente herramienta para la búsqueda entre grandes cantidades de datos, especialmente cuando los datos son de tipo complejo. Nos permite indexar y analizar en tiempo real un gran volumen de datos y hacer consultas sobre ellos. No necesita declarar un esquema de la información que añadimos, no sabemos exactamente qué forma van a tener los datos. Podemos hacer búsquedas de texto complicadas, visualizar el estado de nuestros nodos y escalar sin demasiadas necesidades

Python

Es un lenguaje avanzado de programación con la ventaja de ser relativamente fácil de usar para usuarios que no estén familiarizados con la informática de manera profesional. Es una herramienta para Big Data muy eficiente, en parte debido a la gran comunidad existente, por lo que Python dispone de muchas librerías ya hechas por otros usuarios. Sin embargo, tiene en su contra que no es un lenguaje muy rápido en su ejecución, por lo que suele ser empleado para tareas de integración o tareas donde no haya cálculos pesados.

Lenguaje R

Apache Storm

Es un lenguaje de programación y entorno de software para cálculo estadístico y gráficos. si eliges usar R podrás disponer de una gran cantidad de librerías creadas por la comunidad de R y otras tantas herramientas de altísima calidad (por ejemplo, RStudio).

Es un sistema de computación distribuida en tiempo real orientado a procesar flujos constantes de datos. Puede ser utilizado para procesar los logs de nuestras aplicaciones para ver el uso que se hace de los distintos servicios y gestión de errores; para extraer información de redes sociales a través de sus APIs y analizar un fenómeno en tiempo real; recoger y procesar datos de sensores; buscadores verticales, web analytics, etc.

Frameworks

Modelos de BIG DATA

Los modelos de negocio Big Data son capaces de analizar y generar distintas relaciones entre los datos generados, dentro y fuera, de una empresa. Esto se traduce en descubrir información valiosa, precisa y útil para los tomadores de decisiones. Utilizar este tipo de datos permite identificar y analizar todos los elementos que intervienen en un problema o situación, al igual que los elementos necesarios para desarrollar soluciones más efectivas.

Exploratorio

Inferencial

Descriptivo

La finalidad de este modelo es examinar y explorar bases de datos relacionales para encontrar relaciones entre variables que antes se desconocían. Este tipo de modelos son útiles para descubrir nuevas conexiones, formar hipótesis e impulsar la planificación del diseño y la recolección de datos.

Los modelos inferenciales utilizar una pequeña muestra para inferir sobre una población mayor. El objetivo de extrapolar y generalizar este tipo de información es generar análisis y predicciones.

Su objetivo es describir o resumir un conjunto de datos, generando así resúmenes sencillos sobre muestras y medidas estadísticas descriptivas comunes como:
  • Medidas de tendencia central.
  • Variabilidad.
  • Frecuencia.
  • Posición.
A través de análisis descriptivos se puede realizar un análisis de datos históricos y así tener una visión más precisa a través de información más precisa, sencilla de entender y ordenada.

Predictivo

Los análisis predictivos procesan, tanto datos datos históricos como actuales, con la finalidad de encontrar patrones relevantes hacia el futuro. La precisión de este modelo depende de las variables de entrada y distintos modelos matemáticos.

Causal

Modelos

A través de un análisis causal se analiza la causa y el efecto de las relaciones entre variables. Este tipo de análisis se centra en encontrar las relación entre variables.

Referencias

5 modelos de Big Data más utilizados en los negocios - Predik Data ES. (s.f.). Predik Data ES -. https://predikdata.com/es/modelos-de-big-data-mas-utilizados-en-los-negocios/ inovación. (s.f.). 7 Herramientas Big Data para tu empresa - IIC. Instituto de Ingeniería del Conocimiento. https://www.iic.uam.es/innovacion/herramientas-big-data-para-empresa/ Simões, C. (2023, 5 de octubre). ¿Cómo elegir el framework de procesamiento de Big Data adecuado para tu negocio? Blog ITDO - Agencia de desarrollo Web, APPs y Marketing en Barcelona. https://www.itdo.com/blog/como-elegir-el-framework-de-procesamiento-de-big-data-adecuado-para-tu-negocio/ Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad. (s.f.). PowerData - Especialista en Gestión de Datos | MDM | Big Data | Cloud | Data Warehouse. https://www.powerdata.es/big-data https://www.udgvirtual.udg.mx/cas/login?service=https%3A%2F%2Fdesarrolloweb.udgvirtual.udg.mx%2Flogin%2Findex.php