Want to make creations as awesome as this one?

Cruz Lopez Adan Uriel

Transcript

Implementacionde BigData

Uso de Big Data para la toma de decisiones
Empezar

Definicion de arquitectura

Una arquitectura es una serie de lineamientos y un conjunto de patrones que permiten diseñar y construir una aplicación que pueda operar bajo ciertos escenarios o contextos de hardware.Y asi poder gestionar los datos, desde la recopilacion, transformación, la distribución y el consumo; para asi sacar el máximo provecho de los volúmenes de información .

Arquitecturas de Big Data

La arquitectura de Big Data es un proceso que tiene como principal objetivo el análisis y procesamiento de grandes volúmenes de datos que no pueden administrarse. Para poder valorar semejantes bases de información se diseñan de forma personalizada esquemas de trabajo y estructuras de información en las que, con el apoyo de diferentes herramientas de software, se puede comprender de mejor manera los procesos relacionados con el almacenamiento, gestión y procesamiento de datos.

Modelos para la implementación de Big Data.

El manejo de grandes volúmenes de datos, pueden provenir de una gran variedad de fuentes de información. Dada la cantidad de datos, es muy importante su estructuración y su orden, para conseguir el máximo , por tal motivo se deben tener en cuenta los siguientes modelos mas utilizados.

Ver mas+

Modelos para la implementación de Big Data.

  • Análisis Descriptivo: para grandes volúmenes de datos, su objetivo es describir o resumir un conjunto de datos, generando así resúmenes sencillos sobre muestras y medidas estadísticas descriptivas.
  • Análisis Exploratorio: este modelo examina y explora bases de datos relacionales para encontrar relaciones entre variables que antes se desconocían.Son útiles para descubrir nuevas conexiones, formar hipótesis e impulsar la planificación del diseño y la recolección de datos.

Modelos para la implementación de Big Data.

  • Análisis Inferencial: los modelos inferenciales utilizar una pequeña muestra para inferir sobre una población mayor. El objetivo de extrapolar y generalizar este tipo de información es generar análisis y predicciones.
  • Análisis Predictivo: este modelo procesa datos datos históricos y actuales, con la finalidad de encontrar patrones relevantes hacia el futuro. La precisión de este modelo depende de las variables de entrada y distintos modelos matemáticos.
  • Análisis Causal: analiza la causa y el efecto de las relaciones entre variables. Este tipo de análisis se centra en encontrar las relación entre variables.

Tipos de arquitecturas de big data

Como ya se analizo una arquitectura de big data se diseña para manejar la ingestión, el procesamiento y el análisis de los datos que son demasiado grandes o complejos para un sistema tradicional de base de datos.Por tal motivo se deben tener en cuenta las siguientes arquitecturas para una correcta implementacion.

Ver mas+

Tipos de arquitecturas de big data

Arquitectura kappaSe basa en mantener dos líneas de procesamiento diferentes, una para la capa batch y otra para la capa speed. Consta solo de dos capas: stream processing (o real-time) y serving.

  • La capa stream processing se encarga de las ejecuciones de trabajos en general, normalmente para dar soporte al procesamiento cercano al tiempo real.
  • La capa serving tiene la funcionalidad de permitir la consulta de los resultados.

Los datos de entrada son enviados en paralelo, tanto a un sistema de procesamiento offline como a uno online. Ambas líneas de procesamiento ejecutan la misma lógica de negocio y vuelcan sus resultados en una capa de servicio.Este enfoque permite a las organizaciones adaptar de forma incremental sus infraestructuras para dar servicio a sus aplicaciones.

Tipos de arquitecturas de big data

Arquitectura lambda Esta arquitectura tiene como objetivo realizar un sistema tolerante a fallos, mediante la capa batch y la capa streaming. La capa batch: es el encargado de gestionar los datos históricos, analizarlos y recalcularlos. La capa streaming:se encarga de registrar los datos cercanos a la velocidad del tiempo real y realiza modificaciones a los resultados de la capa batch.

Clasificaciones de las distribuciones de Hadoop:Se encuentran las que pueden ser desplegadas localmente sobre la infraestructura del cliente o en una nube, pero siempre mantenidas y administradas por los clientes. Y están las distribuciones nativas de nubes públicas que los clientes no pueden ejecutar sobre su propia infraestructura de hardware, como:

  • Elastic MapReduce de Amazon Web Services
  • Azure de Microsoft
  • Big Data Solutions de Google Cloud Platform

Tipos de arquitecturas de big data

Arquitectura Hadoop Esta arquitectura es de código abierto de la Apache Software Foundation (ASF) como software libre. La versión de Hadoop provista por la ASF se conoce comúnmente como Vanilla, esta versión no posee ningún tipo de personalización, en contraposición con las diferentes distribuciones que sí poseen diversos grados de personalizaciones. La principal ventaja de utilizar la versión Vanilla de Hadoop es la libertad de disponer del código fuente de las herramientas y de estudiar y modificar el comportamiento de los módulos en caso necesario, siempre que se respeten las condiciones de las correspondientes licencias de la ASF.

MapReduce ejecuta dos tareas separadas y distintas que realizan los programas las cuales son:

  • El trabajo de mapa: Se encarga de tomar un conjunto de datos y lo convierte en otro conjunto de datos, donde los elementos individuales se dividen en tuplas de pares clave-valor.
  • El trabajo de reducción: Se encarga de tomar la salida de un mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas. Como implica la secuencia del nombre MapReduce, el trabajo de reducción siempre se realiza después del trabajo de mapa.

Tipos de arquitecturas de big data

Arquitectura MapReduce MapReduce es una arquitectura de programación que permite una escalabilidad masiva en cientos o miles de servidores en un clúster de Hadoop. Como componente de procesamiento, MapReduce es el centro de una arquitectura Hadoop.

Características principales la arquitectura big data

Escalabilidad: debe ser capaz de aumentar el procesamiento y tamaño de almacenamiento de los datos cada vez que se requiera. Tolerancia: el sistema tiene que poseer un alto nivel de disponibilidad y estabilidad, a pesar de que se presenten inconvenientes técnicos. Datos distribuidos: la información no se almacena de manera agrupada en una sola máquina, si no que se administra de manera descentralizada y se respalda a través de sus diferentes estructuras de hardware, para garantizar que esté disponible en cualquier momento y su manejo optimizado. Procesamiento distribuido: el tratamiento de los datos se realiza entre diferentes máquinas para mejorar los tiempos de ejecución y proporcionar escalabilidad al sistema. Localidad de los datos: la información almacenada debe encontrarse en nodos cercanos e impedir que las transmisiones a lo largo de la red propicien latencias.

IBM. (s. f.). ¿Qué es MapRed22uce? Consultado el 01 de julio de 2022. https://www.ibm.com/mx-es/topics/mapreduce Arias, E. (2022, 06 de junio). Diccionario de arquitecturas de datos. Todobi.com. https://todobi.com/diccionario-de-arquitecturas-de-datos/ PandaID.com. (2019, 02 de abril). Big Data – Procesos en tiempo real. https://www.pandaid.com/big-data-procesos-en-tiempo-real/Joyanes Aguilar, L. (2013). Pág. 153 – 175. https://udgmulti.bibliotecasdigitales.com/read/9786077077572/index Pérez, María. (2015). Pág. 11 – 20. https://udg.bibliotecasdigitales.com/read/9786076224458/index

Referencias

Santos, M. Y., & Costa, C. (2020). Big data: Concepts, warehousing, and analytics. River Publishers. Capítulo 5. Páginas 158 - 194. https://ebookcentral-proquest-com.wdg.biblio.udg.mx:8443/lib/wdgbiblio/detail.action?docID=6184637&query=Big+Data# López Murphy, J. J. & Zarza, G. (2017). La ingeniería del big data: cómo trabajar con datos. Editorial UOC. Capítulo 8. Páginas 127 – 145. https://elibro-net.wdg.biblio.udg.mx:8443/es/lc/udg/titulos/59093 Salazar, A. (2016, 01 de noviembre). Infraestructura para Big Data. Revista Digital Universitaria. 17(11). http://www.revista.unam.mx/vol.17/num11/art77/ The apache software foundation. (s. f.). Map Reduce Tutorial. Consultado el 01 de julio de 2022. https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html SAS Institute Inc. (s. f). Hadoop ¿Qué es y porqué es importante? Consultado el 01 de julio de 2022. https://www.sas.com/es_mx/insights/big-data/hadoop.html

Referencias

Muchas gracias!