Want to create interactive content? It’s easy in Genially!
Big Data
Arthur
Created on March 28, 2023
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Halloween Infographic
View
Halloween List 3D
View
Magic and Sorcery List
View
Journey Map
View
Versus Character
View
Akihabara Connectors Infographic Mobile
View
Mobile mockup infographic
Transcript
Big Data pt. 1
base de datos en la nube ic51v
Que es?
Big Data es un término que se utiliza para describir grandes conjuntos de datos, tanto estructurados como no estructurados, que son difíciles de procesar y analizar con herramientas de procesamiento de datos tradicionales.
Las 3 "V" de Big Data
Volumen
Velocidad
La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad.
La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción.
Variedad
La variedad hace referencia a los diversos tipos de datos disponibles. Los datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional.
Big Data pt. 2
base de datos en la nube ic51v
Datos estructurados
Datos no estructurados
Se refieren a los datos que no tienen una estructura definida. Esto incluye datos de texto, imágenes, audio y video. Estos datos son más difíciles de procesar y analizar..
Se refieren a los datos que se pueden organizar fácilmente en tablas con filas y columnas. Por lo general, estos datos se almacenan en bases de datos relacionales y son fáciles de buscar y procesar.
Datos semiestructurados
Son datos que tienen cierta estructura pero no se pueden organizar fácilmente en tablas o bases de datos relacionales. Estos datos suelen estar en formato XML o JSON y se utilizan con frecuencia en aplicaciones web y móviles.
Gobernanza de datos
Son el conjunto de políticas, procesos y tecnologías que se utilizan para gestionar y proteger los datos dentro de una organización. Esto incluye la definición de estándares para la calidad de los datos, la privacidad, la seguridad y la responsabilidad en el uso de los datos.
Big Data pt. 3
base de datos en la nube ic51v
Lago de datos
Es un repositorio de datos en bruto y sin procesar que se almacenan en su formato original, sin necesidad de definir previamente su estructura o esquema.
Lago de datos
En otras palabras, es un depósito centralizado de datos que permite almacenar grandes cantidades de información estructurada, semiestructurada y no estructurada, de diversas fuentes y formatos, con el fin de ser utilizados para análisis de Big Data.
Arquitectura Hadoop
La arquitectura Hadoop es un conjunto de componentes de software que trabajan juntos para procesar grandes cantidades de datos distribuidos en clústeres de servidores, utilizando un modelo de programación escalable y paralelo.
Big Data pt. 4
base de datos en la nube ic51v
HERRAMIENTAS
MongoDB MongoDb es especialmente útil en entornos que requieran escalabilidad. Con opciones de replicación y sharding, podemos conseguir un sistema que escale horizontalmente sin demasiados problemas.
HADOOP Hadoop utiliza modelos de programación simples para el almacenamiento y procesamiento distribuido de grandes conjuntos de datos en clusters
Phyton
Apache Storm
Lo que está claro es que si eliges usar R podrás disponer de una gran cantidad de librerías creadas por la comunidad de R y otras tantas herramientas de altísima calidad (por ejemplo, RStudio).
Es una herramienta para Big Data muy eficiente, en parte debido a la gran comunidad existente, por lo que Python dispone de muchas librerías ya hechas por otros usuarios.
Puede ser utilizado para procesar los logs de nuestras aplicaciones para ver el uso que se hace de los distintos servicios y gestión de errores
Big Data pt. 5
base de datos en la nube ic51v
Caso de uso Big Data
Google y la predicción del virus N1H1 El gobierno de los Estados Unidos recogía datos por todos sus centros de salud, a partir de casos de enfermos que se atendían, y se procesaban esos datos en conjunto para tratar de tener prevista la incidencia de esta enfermedad. El problema era que las predicciones llegaban 2 semanas tarde. En esta situación, Google recopiló los términos de búsqueda más utilizados en las zonas y en las épocas pasadas de máxima incidencia de la enfermedad. Entonces, cuando en el buscador empezaban a introducirse estos términos de forma insistente en una zona concreta, en tiempo real, Google fue capaz de predecir dónde se iba a dar un brote de esta enfermedad de forma inmediata, con un porcentaje de éxito altísimo y en el momento en el que el brote estaba comenzando.