Want to create interactive content? It’s easy in Genially!

Get started free

Big Data

Arthur

Created on March 28, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Halloween Infographic

Halloween List 3D

Magic and Sorcery List

Journey Map

Versus Character

Akihabara Connectors Infographic Mobile

Mobile mockup infographic

Transcript

Big Data pt. 1

base de datos en la nube ic51v

Que es?

Big Data es un término que se utiliza para describir grandes conjuntos de datos, tanto estructurados como no estructurados, que son difíciles de procesar y analizar con herramientas de procesamiento de datos tradicionales.

Las 3 "V" de Big Data

Volumen

Velocidad

La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad.

La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción.

Variedad

La variedad hace referencia a los diversos tipos de datos disponibles. Los datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional.

Big Data pt. 2

base de datos en la nube ic51v

Datos estructurados

Datos no estructurados

Se refieren a los datos que no tienen una estructura definida. Esto incluye datos de texto, imágenes, audio y video. Estos datos son más difíciles de procesar y analizar..

Se refieren a los datos que se pueden organizar fácilmente en tablas con filas y columnas. Por lo general, estos datos se almacenan en bases de datos relacionales y son fáciles de buscar y procesar.

Datos semiestructurados

Son datos que tienen cierta estructura pero no se pueden organizar fácilmente en tablas o bases de datos relacionales. Estos datos suelen estar en formato XML o JSON y se utilizan con frecuencia en aplicaciones web y móviles.

Gobernanza de datos

Son el conjunto de políticas, procesos y tecnologías que se utilizan para gestionar y proteger los datos dentro de una organización. Esto incluye la definición de estándares para la calidad de los datos, la privacidad, la seguridad y la responsabilidad en el uso de los datos.

Big Data pt. 3

base de datos en la nube ic51v

Lago de datos

Es un repositorio de datos en bruto y sin procesar que se almacenan en su formato original, sin necesidad de definir previamente su estructura o esquema.

Lago de datos

En otras palabras, es un depósito centralizado de datos que permite almacenar grandes cantidades de información estructurada, semiestructurada y no estructurada, de diversas fuentes y formatos, con el fin de ser utilizados para análisis de Big Data.

Arquitectura Hadoop

La arquitectura Hadoop es un conjunto de componentes de software que trabajan juntos para procesar grandes cantidades de datos distribuidos en clústeres de servidores, utilizando un modelo de programación escalable y paralelo.

Big Data pt. 4

base de datos en la nube ic51v

HERRAMIENTAS

MongoDB MongoDb es especialmente útil en entornos que requieran escalabilidad. Con opciones de replicación y sharding, podemos conseguir un sistema que escale horizontalmente sin demasiados problemas.

HADOOP Hadoop utiliza modelos de programación simples para el almacenamiento y procesamiento distribuido de grandes conjuntos de datos en clusters

Phyton

Apache Storm

Lo que está claro es que si eliges usar R podrás disponer de una gran cantidad de librerías creadas por la comunidad de R y otras tantas herramientas de altísima calidad (por ejemplo, RStudio).

Es una herramienta para Big Data muy eficiente, en parte debido a la gran comunidad existente, por lo que Python dispone de muchas librerías ya hechas por otros usuarios.

Puede ser utilizado para procesar los logs de nuestras aplicaciones para ver el uso que se hace de los distintos servicios y gestión de errores

Big Data pt. 5

base de datos en la nube ic51v

Caso de uso Big Data

Google y la predicción del virus N1H1 El gobierno de los Estados Unidos recogía datos por todos sus centros de salud, a partir de casos de enfermos que se atendían, y se procesaban esos datos en conjunto para tratar de tener prevista la incidencia de esta enfermedad. El problema era que las predicciones llegaban 2 semanas tarde. En esta situación, Google recopiló los términos de búsqueda más utilizados en las zonas y en las épocas pasadas de máxima incidencia de la enfermedad. Entonces, cuando en el buscador empezaban a introducirse estos términos de forma insistente en una zona concreta, en tiempo real, Google fue capaz de predecir dónde se iba a dar un brote de esta enfermedad de forma inmediata, con un porcentaje de éxito altísimo y en el momento en el que el brote estaba comenzando.