Want to create interactive content? It’s easy in Genially!
Unidad 1. Introducción a Big data
erendira alavez
Created on July 19, 2023
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
bloque c. Grandes volúmenes de datos (Big Data) y analítica
empezar
Índice
Big Data y ciencia de datos
Las características de Big Data
Arquitecturas centralizada y distribuida
Tipos de analítica: descriptiva, predictiva y prescriptiva
ARQUITECTURAS Z Y LAMBDA
Presentación del módulo
INTRODUCCIÓN A BIG DATA
Como parte de nuestra vida diaria, el concepto de Big data ha tomado relevancia en muchos sectores. La informaciòn en la que estamos inmersos, nos replantea la posibilidad de identificar los desafios que implica la gran cantidad de datos, asi como las tecnologias necesarias para su correcta gestión y análisis con el objetivo de tomar mejores desiciones en diversas áreas.
LExploración en la frontera de los grandes volúmenes de datos
Presentación del módulo
Objetivo
Identificar qué se entiende por grandes volúmenes de datos, cuál ha sido la evolución de las tecnologías informáticas utilizadas para su captura, procesamiento y almacenamiento.
Presentación del módulo
1.1 big Data y ciencia de datos
El fenómeno de big data parece invadir todos los aspectos de la vida cotidiana, profesional y académica. Como sucede con todas las tecnologías innovadoras, la sociedad parece radicalizarse ante la irrupción de un fenómeno disruptivo y big data no es la excepción
Presentación del módulo
1.1 big Data y ciencia de datos
El análisis inteligente (y la mayoría de las veces en tiempo real) de este tipo de información está empezando a ser un requisito innegable para la supervivencia de muchas empresas y organizaciones. Como consecuencia de ello el termino big data ha tenido relevancia. Así, la demanda de los llamados “científicos de datos” está creciendo exponencialmente.
Presentación del módulo
1.1 big Data y ciencia de datos
Estructura tradicional de datos La estructura de un conjunto de datos se presenta como una matriz de n filas y p columnas, representando cada fila información sobre p variables medidas en cada unidad. Por ejemplo, la hoja de cálculo Excel 2013 puede utilizarse para mostrar 1.048.576 filas por 16.384 columnas en cada hoja, siendo los límites máximo de almacenamiento en memoria de 2 gigabytes (GB) en un entorno de 32 bits, y los límites del sistema y su memoria en un entorno de 64 bits.
Presentación del módulo
1.1 big Data y ciencia de datos
Recordemos …¿QUÉ ES UN BIT? Es la mínima cantidad de información procesada, sólo puede ser 1 o 0; mientras que un byte es un conjunto de 8 bits
Presentación del módulo
1.1 big Data y ciencia de datos
Recordemos …¿QUÉ ES UN BIT? Es la mínima cantidad de información procesada, sólo puede ser 1 o 0; mientras que un byte es un conjunto de 8 bits
Presentación del módulo
1.1 big Data y ciencia de datos
Una solución a las limitaciones de Excel procedió de los sistemas de gestión de bases de datos relacionales (RDBMS), que utilizan lenguaje de consultas estructurado (SQL) para definir consultas y actualizar la base de datos. Las empresas líderes en el mercado de sistemas de bases de datos son Oracle, IBM y Microsoft.
Presentación del módulo
1.La conclusión a la que se llega es..
La incapacidad de las bases de datos tradicionales para dar respuesta a muchos de los datos que aparecen ahora en las empresas. Por ejemplo, la información que se genera cada día a través de la opinión de los clientes de una marca en las redes sociales como Facebook, Twitter, etc.
1.2 Características de big data
2001 Las tres “V” definida por Doug Laney para Big Data: “Volumen, Velocity, Variety” (Volumen, Velocidad, Variedad).
1.2 Características de big data
El estudio publicado por McKinsey Global Institute (MGI) en junio de 2011: Definió big data como “conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de base de datos”.
1.2 Características de big data
En 2012 Gartner definió big data como “Activos de información caracterizados por su volumen elevado, velocidad elevada y alta variedad, que demandan soluciones innovadoras y eficientes de procesado para la mejora del conocimiento y la toma de decisiones en las organizaciones”
1.2 Características de big data
¿De dondé se pueden obtener datos con características de Big Data?
1.2 Características de big data
Los Big Data: Conceptos relacionados y algunas aplicaciones en pediatría. https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0370-41062019000400376
1.2 Características de big data
Las fuentes de datos de origen de Big data pueden ser clasificados en diferentes categorias , cada una de las cuales contiene a su vez un numero de fuentes diversas que se recolectan , almacenan, preocesan y analizan
05
04
03
02
01
Web y medos sociales
Máquina a máquina
Datos de transacciones
Biometría
Generados por humanos
correos electronicos , llamadas telefonicas, mensajesde redes sociales
Reconocimiento facial, huellas digitales, reconocimiento de voz
registros de facturación , demandas de salud, redistros de compras o ventas
contenido web, entradas , feeds,, datos de flujos de facebook, instagram...
Lecturas de medidores inteligentes, lecturas RFID,lecturas de senores, GPS
(2013) Joyanes,L.Big data: Análisis de grandes volúmenes de datos en organizaciones. AlfaOmega
Lo
Desafios de BIG DATA
1.3 Arquitecturas cantralizada y dstribuida
Diferentes Arquitecturas
- Sistemas Centralizados.
- Sistemas Cliente/Servidor.
- Sistemas Paralelos.
- Sistemas Distribuidos
La arquitectura de un sistema de bases de datos está influenciada por el sistema informático subyacente en el que se ejecuta el sistema de bases de datos.
En la arquitectura de un sistema de bases de datos interesan aspectos como:
- La conexión en red
- Capacidades de procesamiento en paralelo
- Capacidades de distribución de datos.
Sesiones de aprendizaje
¿Qué es un sistema distribuido?
Un sistema distribuido es un conjunto de equipos independientes que actúan de forma transparente actuando como un único equipo. Su objetivo es descentralizar tanto el almacenamiento de la información como el procesamiento. .
1.4 Datos en reposo y en movimiento
Bob quiere enviar a Alice una foto de un paisaje . Bob tien la foto en su teléfono inteligente, donde la tiene almacenada. La foto del paisaje es actualmente un dato en reposo. Bob ve la foto y la adjunta a un correo electrónico, que carga la foto en la memoria y se convierte así en datos en uso (concretamente por el visor de fotos de su teléfono y las aplicaciones de correo electrónico). Bob pulsa "Enviar," y el correo electrónico con la foto adjunta viaja por Internet hasta el servicio de correo electrónico de Alice; se ha convertido en datos en tránsito.
1.5 ARQUITECTURAS LAMBDA Y Z
Cuando se trabaja con grandes conjuntos de datos, es posible que se tarde mucho tiempo en ejecutar el tipo de consultas que los clientes necesitan. Un inconveniente de este enfoque es que introduce latencia (si el procesamiento tarda varias horas, una consulta puede devolver resultados con varias horas de antigüedad). Lo ideal sería que deseara obtener resultados en tiempo real (quizás con alguna pérdida de precisión) y combinar dichos resultados con los de los análisis por lotes.
1.5 ARQUITECTURAS LAMBDA Y Z
El arquitectura lambda, que Nathan Marz propuso por primera vez, aborda este problema mediante la creación de dos rutas de acceso para el flujo de datos. Todos los datos que entran en el sistema atraviesan estas dos rutas de acceso:
- Una capa por lotes (ruta de acceso preciso) almacena todos los datos de entrada en su forma sin formato y realiza el procesamiento por lotes de los datos. El resultado de este procesamiento se almacena en forma de vista por lotes.
- Una capa de velocidad (ruta de acceso rápido) analiza los datos en tiempo real. Este nivel está diseñado para que tenga una latencia baja, a costa de la precisión.
1.5 ARQUITECTURAS LAMBDA Y Z
La capa por lotes se distribuye en una capa de servicios que indexa la vista por lotes para realizar consultas eficaces. La capa de velocidad actualiza el nivel de servicios con actualizaciones incrementales en función de los datos más recientes.
Los datos que fluyen en la ruta de acceso rápido están limitados por los requisitos de latencia que impone la capa de velocidad, con el fin de que puedan procesarse lo antes posible. A menudo esto requiere ceder cierto nivel de precisión a cambio de que los datos estén listos lo más rápidamente posible. Por ejemplo, considere un escenario de IoT en el que un gran número de sensores de temperatura envían datos de telemetría. La capa de velocidad se puede utilizar para procesar una ventana de tiempo variable de los datos de entrada. Los datos que fluyen en la ruta de acceso preciso, por otro lado, no están sujetos a los mismos requisitos de latencia baja. Esto permite que el cálculo tenga gran exactitud en grandes conjuntos de datos, lo que puede requerir mucho tiempo.