Want to create interactive content? It’s easy in Genially!

Get started free

8 Analítica educativa - M1 - Conociendo el Big Data

CEV PUCE

Created on January 27, 2020

Start designing with a free template

Discover more than 1500 professional designs like these:

Transcript

Conociendo el Big Data

Analítica educativa

Gestión del aprendizaje virtual

Conociendo el Big Data

Introducción​

A continuación analizaremos los fundamentos en los que se cimenta las técnicas de Big Data con el propósito de conocer de manera mas profunda como funcionan estas herramientas y las tecnologías inmersas en su funcionamiento.

Conociendo el Big Data

Estado del arte de Big Data​

Según ZDNet.com el término aplica a la información que no puede ser procesada o analizada mediante procesos tradicionales.

Para Thinkupapp.com Big Data son “cantidades masivas de datos que se acumulan con el tiempo que son difíciles de analizar y manejar utilizando herramientas comunes de gestión de bases de datos”

Según E. Dans Big Data se refiere “al tratamiento y análisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos y analíticas convencionales”.

Conociendo el Big Data

Estado actual de Big Data

Una encuesta realizada por LogLogic encuentra que el 49% de las organizaciones están algo o muy preocupados por la gestión de Big Data, pero que el 38% no entiende lo que es, y el 27% dice que tiene una comprensión parcial; además, la encuesta encontró que 59% de las organizaciones carecen de las herramientas necesarias para gestionar los datos de sus sistemas de TI S. (Montoro, 2011)

Conociendo el Big Data

Dimensiones de Big Data​

Existen tres características o dimensiones: Volumen, Velocidad y Variedad.

Volumen

Cada día, las empresas registran un aumento significativo de sus datos (terabytes, petabytes y exabytes), creados por personas y máquinas. En el año 2000 se generaron 800.000 petabytes (PB), de datos almacenados y se espera que esta cifra alcance los 35 zettabytes (ZB) en el 2020.

Las redes sociales también generan datos, es el caso de Twitter, que por sí sola genera más de 7 terabytes (TB) diariamente, y de Facebook, 10 TB de datos cada día. Algunas empresas generan terabytes de datos cada hora de cada día del año, es decir, las empresas están inundadas de datos

Conociendo el Big Data

Dimensiones de Big Data​

Existen tres características o dimensiones: Volumen, Velocidad y Variedad.

Velocidad

Se refiere a la velocidad con que se crean los datos, que es la medida en que aumentan los productos de desarrollos de software (páginas web, archivos de búsquedas, redes sociales, foros, correos electrónicos, entre otros).​Las tres características tienen coherencia entre sí; por ejemplo [13], analizar 500 millones de registros de llamadas al día en tiempo real para predecir la pérdida de clientes. (ibm.com, 2012)​

Conociendo el Big Data

Análisis de Big Data

Existen algunos beneficios del análisis de Big Data para las organizaciones, tal como se observó en el área de marketing, demostrados en la encuesta realizada por TDWI (The Data Warehousing Institute), cuando preguntó: “¿Cuál de los siguientes beneficios se produciría si la organización implementa alguna forma de análisis de Big Data?”.

“¿Cuál de los siguientes beneficios se produciría si la organización implementa alguna forma de análisis de Big Data?”

Conociendo el Big Data

Dimensiones de Big Data​

Existen tres características o dimensiones: Volumen, Velocidad y Variedad.

Variedad

Se puede mencionar que va muy de la mano con el volumen, pues de acuerdo con éste y con el desarrollo de la tecnología, existen muchas formas de representar los datos; es el caso de datos estructurados y no estructurados; estos últimos son los que se generan desde páginas web, archivos de búsquedas, redes sociales, foros, correos electrónicos o producto de sensores en diferentes actividades de las personas; un ejemplo es el convertir 350 mil millones de lecturas de los medidores por año para predecir el consumo de energía. (ibm.com, 2012)

Conociendo el Big Data

Análisis de Big Data

El 61% respondió que influye de manera social; el 45%, que habrá más puntos de vista de negocio; el 37% se inclinó por las decisiones automatizadas en los procesos en tiempo real; el 29% mencionó que se mejoraría la el comportamiento del consumidor.

Según la misma encuesta, se encontraron ciertos inconvenientes del análisis del Big Data, entre ellos: la falta de personal y de habilidades del recurso humano (46%), la dificultad en la arquitectura de un sistema de análisis de Big Data (33%), problemas con el Big Data utilizable para los usuarios finales (22%), la falta de patrocinio empresarial (38%) y la deficiencia de un argumento empresarial convincente (28%), la carencia de análisis de bases de datos (32%), problemas de escalabilidad de Big Data (23%), rapidez en las consultas (22%) y dificultad para cargar los datos lo suficientemente rápido (21%), entre otros [16].​

Conociendo el Big Data

Análisis de Big Data

Ante la pregunta sobre cada cuánto realizan análisis de Big Data, se halló que anualmente, el 15%; mensual, el 35%; semanal, el 14%; diario, 24%; cada pocas horas, 5%; cada hora, 4%; en tiempo real, 4%. Lo anterior fue el resultado de 96 entrevistados. (E. Redmond, & J. Wilson, 2012)

El análisis de datos se realiza con tecnologías de bases de datos como NoSQL, Hadoop y MapReduce, las cuales soportan el procesamiento del Big Data.

El objetivo del análisis de datos es examinar grandes cantidades de datos con una variedad de clases, con el fin de descubrir información que sea relevante y útil para la empresa, de manera que le permita tomar las mejores decisiones y obtener ventajas competitivas en comparación con otras de su clase.​

Conociendo el Big Data

Tecnologías de Big Data

Apache Hadoop: Según [18],“Apache Hadoop es un marco de software de código abierto para aplicaciones intensivas de datos distribuidos originalmente creado por Doug Cutting para apoyar su trabajo en Nutch, una Web de código abierto motor de búsqueda.

Hadoop es ahora una de las tecnologías más populares para el almacenamiento de los datos estructurados, semi-estructurados y no estructurados que forman Big Data.

Hadoop está disponible bajo la licencia Apache 2.0”.​

Conociendo el Big Data

Se caracteriza por:

  • Fue diseñado para ejecutarse en grupos relativamente grandes de hardware, es decir, en clúster robustos.​
  • Es robusto, pues ante un mal funcionamiento del hardware puede superar tales situaciones sin mayor inconveniente.​
  • Tiene la ventaja de poder ser escalable, lo que indica que permite crecer o agregar nodos al clúster con relativa facilidad; por ejemplo, ante la forma vertiginosa como crecen las redes sociales, permite agregar más nodos con facilidad.​
  • Es simple, por lo que permite a los usuarios.
  • Escribir código con eficiencia, para software​ distribuido.

Conociendo el Big Data

Bases de datos NoSQL​

En 1998 aparece el término NoSQL, que significa no solo SQL. El nombre fue creado por Carlo Strozzi, para denominar su base de datos que no ofrecía SQL.

Las NoSQL no presentan el modelo de las bases de datos relacionales; estas no tienen esquemas, no usan SQL, tampoco permiten joins (unión), no almacenan datos en tablas de filas y columnas de manera uniforme, presentan escalabilidad de forma horizontal, para su labor usan la memoria principal del computador; su objetivo es gestionar grandes volúmenes de información.

Conociendo el Big Data

Bases de datos NoSQL​

Las bases de datos NoSQL tienen como característica principal que su estructura es distribuida, es decir, los datos se hallan distribuidos en varias máquinas.

Las bases de datos NoSQL permiten obtener los datos con mayor velocidad que en otras con modelo relacional.

Conociendo el Big Data

Bases de datos NoSQL​

Voldemort

Voldemort fue creada por LinkedIn, con el fin de solucionar los problemas de escalabilidad que tenían las bases de datos relacionales; los datos los almacena en forma de clave-valor; es de ambiente distribuido, los datos se replican automáticamente en los diferentes nodos o servidores, donde cada nodo es independiente de los demás; permite con cierta facilidad la expansión del clúster, sin necesidad de reequilibrar todos los datos.

Conociendo el Big Data

Bases de datos NoSQL​

HBase

HBase es una base de datos de tipo código abierto(Open Source); almacena los datos de forma clavevalor; también almacena y recupera los datos de forma aleatoria, es decir, que al momento de escribir los datos lo hace a su manera, y al leerlos funciona de igual forma. Trabaja con los tres tipos de datos: no estructurados, semiestructurados y estructurados, siempre y cuando no sean tan grandes.

Conociendo el Big Data

Bases de datos NoSQL​

Riak

Riak es una base de datos que almacena la información en forma de clave-valor y es de ambiente distribuido, presenta la característica de que es tolerante a fallos, lo que indica que puede eliminar errores y sus efectos antes de que ocurra una falla, buscando de esta manera​ maximizar la fiabilidad del sistema. Utiliza JSON (JavaScript Object Notation - Notación de Objetos de JavaScript), que es un formato para el intercambio de datos.

Conociendo el Big Data

Bases de datos NoSQL​

CouchDB

CouchDB es el acrónimo en inglés de Clusterof UnreliableCommodity Hardware; fue creado en el año 2005, por Damien Katz. En el 2011 se hace el lanzamiento al público de la versión 1.1.1. Se considera que CouchDB es un servidor de base de datos documental, lo cual indica que los datos no los almacena en tablas, sino que la base de datos está compuesta por documentos, que a su vez trabajan como objetos. ​

Conociendo el Big Data

Bases de datos NoSQL​

MongoDB

MongoDB es una base de datos con el perfil NoSQL orientada a documentos, bajo la filosofía de código abierto. La importancia de MongoDBradica en su versatilidad, su potencia y su facilidad de uso, al igual que en su capacidad para manejar tanto grandes como pequeños volúmenes de datos. Es una base de datos que no tiene concepto de tablas, esquemas, SQL, columnas o filas.​

Conociendo el Big Data

Modelo de datos

Los datos se clasifican en estructurados, no estructurados y semiestructurados.

Datos estructurados

Este tipo de datos se dividen en estáticos (array, cadena de caracteres y registros) y dinámicos (listas, pilas, colas, árboles, archivos). Se puede definir que los datos estructurados son aquellos de mayor facilidad para acceder, pues tienen una estructura bien especificada. ​

Conociendo el Big Data

Modelo de datos

Un array es una colección finita de elementos en formatos definidos del mismo tipo, es decir, son homogéneos, y ordenados por un índice; con estos formatos se facilita la administración de los datos; ejemplo de ellos, un campo que contiene una fecha DD, MM, AA, que contiene seis caracteres, o un formato con la dirección de la persona, que puede ser alfanumérico, con tamaño de 40 caracteres. ​

Conociendo el Big Data

Modelo de datos

Datos no estructurados

Datos semiestructurados​

Son aquellos que no pueden ser normalizados, no tienen tipos definidos ni están organizados bajo algún patrón; tampoco son almacenados de manera relacional, o con base jerárquica de datos, debido a que no son un tipo de dato predefinido; es decir, no tienen un formato normalizado determinado.

Estos datos no tienen un formato definido, lo que tienen son etiquetas que facilitan separar un dato de otro. Un dato de estos se lee con un conjunto de reglas de cierto nivel de complejidad.

Son aquellos que no pueden ser normalizados, no tienen tipos definidos ni están organizados bajo algún patrón; tampoco son almacenados de manera relacional, o con base jerárquica de datos, debido a que no son un tipo de dato predefinido; es decir, no tienen un formato normalizado determinado.