Want to create interactive content? It’s easy in Genially!

Unidad 1. Introducción a Big data

erendira alavez

Created on July 19, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Explore all templates

bloque c. Grandes volúmenes de datos (Big Data) y analítica

empezar

Índice

Big Data y ciencia de datos

Las características de Big Data

Arquitecturas centralizada y distribuida

Tipos de analítica: descriptiva, predictiva y prescriptiva

ARQUITECTURAS Z Y LAMBDA

Presentación del módulo

INTRODUCCIÓN A BIG DATA

Como parte de nuestra vida diaria, el concepto de Big data ha tomado relevancia en muchos sectores. La informaciòn en la que estamos inmersos, nos replantea la posibilidad de identificar los desafios que implica la gran cantidad de datos, asi como las tecnologias necesarias para su correcta gestión y análisis con el objetivo de tomar mejores desiciones en diversas áreas.

LExploración en la frontera de los grandes volúmenes de datos

Presentación del módulo

Objetivo

Identificar qué se entiende por grandes volúmenes de datos, cuál ha sido la evolución de las tecnologías informáticas utilizadas para su captura, procesamiento y almacenamiento.

Presentación del módulo

1.1 big Data y ciencia de datos

El fenómeno de big data parece invadir todos los aspectos de la vida cotidiana, profesional y académica. Como sucede con todas las tecnologías innovadoras, la sociedad parece radicalizarse ante la irrupción de un fenómeno disruptivo y big data no es la excepción

Presentación del módulo

1.1 big Data y ciencia de datos

El análisis inteligente (y la mayoría de las veces en tiempo real) de este tipo de información está empezando a ser un requisito innegable para la supervivencia de muchas empresas y organizaciones. Como consecuencia de ello el termino big data ha tenido relevancia. Así, la demanda de los llamados “científicos de datos” está creciendo exponencialmente.

Presentación del módulo

1.1 big Data y ciencia de datos

Estructura tradicional de datos La estructura de un conjunto de datos se presenta como una matriz de n filas y p columnas, representando cada fila información sobre p variables medidas en cada unidad. Por ejemplo, la hoja de cálculo Excel 2013 puede utilizarse para mostrar 1.048.576 filas por 16.384 columnas en cada hoja, siendo los límites máximo de almacenamiento en memoria de 2 gigabytes (GB) en un entorno de 32 bits, y los límites del sistema y su memoria en un entorno de 64 bits.

Presentación del módulo

1.1 big Data y ciencia de datos

Recordemos …¿QUÉ ES UN BIT? Es la mínima cantidad de información procesada, sólo puede ser 1 o 0; mientras que un byte es un conjunto de 8 bits

Presentación del módulo

1.1 big Data y ciencia de datos

Recordemos …¿QUÉ ES UN BIT? Es la mínima cantidad de información procesada, sólo puede ser 1 o 0; mientras que un byte es un conjunto de 8 bits

Presentación del módulo

1.1 big Data y ciencia de datos

Una solución a las limitaciones de Excel procedió de los sistemas de gestión de bases de datos relacionales (RDBMS), que utilizan lenguaje de consultas estructurado (SQL) para definir consultas y actualizar la base de datos. Las empresas líderes en el mercado de sistemas de bases de datos son Oracle, IBM y Microsoft.

Presentación del módulo

1.La conclusión a la que se llega es..

La incapacidad de las bases de datos tradicionales para dar respuesta a muchos de los datos que aparecen ahora en las empresas. Por ejemplo, la información que se genera cada día a través de la opinión de los clientes de una marca en las redes sociales como Facebook, Twitter, etc.

1.2 Características de big data

2001 Las tres “V” definida por Doug Laney para Big Data: “Volumen, Velocity, Variety” (Volumen, Velocidad, Variedad).

1.2 Características de big data

El estudio publicado por McKinsey Global Institute (MGI) en junio de 2011: Definió big data como “conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de base de datos”.

1.2 Características de big data

En 2012 Gartner definió big data como “Activos de información caracterizados por su volumen elevado, velocidad elevada y alta variedad, que demandan soluciones innovadoras y eficientes de procesado para la mejora del conocimiento y la toma de decisiones en las organizaciones”

1.2 Características de big data

¿De dondé se pueden obtener datos con características de Big Data?

1.2 Características de big data

Los Big Data: Conceptos relacionados y algunas aplicaciones en pediatría. https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0370-41062019000400376

1.2 Características de big data

Las fuentes de datos de origen de Big data pueden ser clasificados en diferentes categorias , cada una de las cuales contiene a su vez un numero de fuentes diversas que se recolectan , almacenan, preocesan y analizan

Web y medos sociales

Máquina a máquina

Datos de transacciones

Biometría

Generados por humanos

correos electronicos , llamadas telefonicas, mensajesde redes sociales

Reconocimiento facial, huellas digitales, reconocimiento de voz

registros de facturación , demandas de salud, redistros de compras o ventas

contenido web, entradas , feeds,, datos de flujos de facebook, instagram...

Lecturas de medidores inteligentes, lecturas RFID,lecturas de senores, GPS

(2013) Joyanes,L.Big data: Análisis de grandes volúmenes de datos en organizaciones. AlfaOmega

Desafios de BIG DATA

1.3 Arquitecturas cantralizada y dstribuida

Diferentes Arquitecturas

Sistemas Centralizados.
Sistemas Cliente/Servidor.
Sistemas Paralelos.
Sistemas Distribuidos

La arquitectura de un sistema de bases de datos está influenciada por el sistema informático subyacente en el que se ejecuta el sistema de bases de datos.

En la arquitectura de un sistema de bases de datos interesan aspectos como:

La conexión en red
Capacidades de procesamiento en paralelo
Capacidades de distribución de datos.

Sesiones de aprendizaje

¿Qué es un sistema distribuido?

Un sistema distribuido es un conjunto de equipos independientes que actúan de forma transparente actuando como un único equipo. Su objetivo es descentralizar tanto el almacenamiento de la información como el procesamiento. .

1.4 Datos en reposo y en movimiento

Bob quiere enviar a Alice una foto de un paisaje . Bob tien la foto en su teléfono inteligente, donde la tiene almacenada. La foto del paisaje es actualmente un dato en reposo. Bob ve la foto y la adjunta a un correo electrónico, que carga la foto en la memoria y se convierte así en datos en uso (concretamente por el visor de fotos de su teléfono y las aplicaciones de correo electrónico). Bob pulsa "Enviar," y el correo electrónico con la foto adjunta viaja por Internet hasta el servicio de correo electrónico de Alice; se ha convertido en datos en tránsito.

1.5 ARQUITECTURAS LAMBDA Y Z

Cuando se trabaja con grandes conjuntos de datos, es posible que se tarde mucho tiempo en ejecutar el tipo de consultas que los clientes necesitan. Un inconveniente de este enfoque es que introduce latencia (si el procesamiento tarda varias horas, una consulta puede devolver resultados con varias horas de antigüedad). Lo ideal sería que deseara obtener resultados en tiempo real (quizás con alguna pérdida de precisión) y combinar dichos resultados con los de los análisis por lotes.

1.5 ARQUITECTURAS LAMBDA Y Z

El arquitectura lambda, que Nathan Marz propuso por primera vez, aborda este problema mediante la creación de dos rutas de acceso para el flujo de datos. Todos los datos que entran en el sistema atraviesan estas dos rutas de acceso:

Una capa por lotes (ruta de acceso preciso) almacena todos los datos de entrada en su forma sin formato y realiza el procesamiento por lotes de los datos. El resultado de este procesamiento se almacena en forma de vista por lotes.
Una capa de velocidad (ruta de acceso rápido) analiza los datos en tiempo real. Este nivel está diseñado para que tenga una latencia baja, a costa de la precisión.

1.5 ARQUITECTURAS LAMBDA Y Z

La capa por lotes se distribuye en una capa de servicios que indexa la vista por lotes para realizar consultas eficaces. La capa de velocidad actualiza el nivel de servicios con actualizaciones incrementales en función de los datos más recientes.

Los datos que fluyen en la ruta de acceso rápido están limitados por los requisitos de latencia que impone la capa de velocidad, con el fin de que puedan procesarse lo antes posible. A menudo esto requiere ceder cierto nivel de precisión a cambio de que los datos estén listos lo más rápidamente posible. Por ejemplo, considere un escenario de IoT en el que un gran número de sensores de temperatura envían datos de telemetría. La capa de velocidad se puede utilizar para procesar una ventana de tiempo variable de los datos de entrada. Los datos que fluyen en la ruta de acceso preciso, por otro lado, no están sujetos a los mismos requisitos de latencia baja. Esto permite que el cálculo tenga gran exactitud en grandes conjuntos de datos, lo que puede requerir mucho tiempo.

Unidad 1. Introducción a Big data

Start designing with a free template

View

Essential Learning Unit

View

Akihabara Learning Unit

View

Genial learning unit

View

History Learning Unit

View

Primary Unit Plan

View

Vibrant Learning Unit

View

Art learning unit

Transcript

bloque c. Grandes volúmenes de datos (Big Data) y analítica

Índice

Presentación del módulo

INTRODUCCIÓN A BIG DATA

Presentación del módulo

Objetivo

Presentación del módulo

1.1 big Data y ciencia de datos

Presentación del módulo

1.1 big Data y ciencia de datos

Presentación del módulo

1.1 big Data y ciencia de datos

Presentación del módulo

1.1 big Data y ciencia de datos

Presentación del módulo

1.1 big Data y ciencia de datos

Presentación del módulo

1.1 big Data y ciencia de datos

Presentación del módulo

1.La conclusión a la que se llega es..

1.2 Características de big data

1.2 Características de big data

1.2 Características de big data

1.2 Características de big data

1.2 Características de big data

1.2 Características de big data

Desafios de BIG DATA

1.3 Arquitecturas cantralizada y dstribuida

Sesiones de aprendizaje

¿Qué es un sistema distribuido?

1.4 Datos en reposo y en movimiento

1.5 ARQUITECTURAS LAMBDA Y Z

1.5 ARQUITECTURAS LAMBDA Y Z

1.5 ARQUITECTURAS LAMBDA Y Z

como se llama a la mayor cantidad de información

Co

como se llama a la mayor cantidad de información

Co