Want to create interactive content? It’s easy in Genially!

Get started free

MGTH - 11 - M2 - R1

PUCE

Created on August 27, 2020

Start designing with a free template

Discover more than 1500 professional designs like these:

Smart Presentation

Practical Presentation

Essential Presentation

Akihabara Presentation

Flow Presentation

Dynamic Visual Presentation

Pastel Color Presentation

Transcript

Cómo la recomendación altera el comportamiento laboral de las personas

Social media aplicada al Talento Humano

Agenda

Tema 2 : Big Data para la gestión del talento humano2.1 ¿Qué es Big Data? 2.2 Almacenamiento distribuido 2.3 Map Reduce

¿Big Data o Little Data, cuál es la diferencia?

Big Data definición

Es un flujo masivo de datos, con enorme variabilidad de tipología de datos, que llega en enormes volúmenes, y con alta velocidad con veracidad y con valor para ser usado por una organización en su toma de decisión futura.

Big Data definición

  • BIG DATA es un término que se ha acuñado para referirse a la manipulación de una gran cantidad de datos.
  • Es un conjunto de tecnologías que nació para cubrir las necesidades de almacenamiento y procesamiento de grandes volúmenes de datos y que no podían ser satisfechas por las tecnologías existentes. Basicamente nacieron porque Google necesitaba ingerir toda la información publicada vía internet para alimentar sus bases de datos y poder clasificar el contenido más relevante para una frase de búsqueda.

Big Data definición

  • Computación tradicional
    • Pocos datos
    • Un ordenador potente bastaba; los datos estaban todos centralizados se copiaban al procesador en tiempo de ejecución para su procesado, OK para pequeñas cantidades de datos.
  • Computación actual
    • Muchísimos datos (terabytes, petabytes)
    • No se puede tener un único ordenador
    • Sistemas distribuidos

Las 5 “V” del Big Data

Variabilidad

Los datos provienen de múltiples soportes, herramientas y plataformas.

Velocidad

Valor

Los datos se generan y almacenan a una velocidad sin precedentes

Es necesario saber que tan pertinente es la información para los objetivos que se busca

Volumen

Veracidad

Gran cantidad de información difícil de procesar con los medios tradicionales

Las empresas deben asegurarse de que los datos que están recompilando tengan validez

Tecnologías Big Data

Aplicaciones

  • Analítica de datos
    • Generación de informes
    • Análisis OLAP
    • Cuadros de Mando
  • Machine Learning
    • Sistemas de recomendación
    • Análisis social de sentimiento
    • Análisis de fuga en talento humano
    • Análisis de errores o fallos en la producción
    • Optimización del riesgo crediticio
    • Optimización de rutas logísticas Estimated Time to Point

Cloud

  • Una de las grandes revoluciones recientes de la tecnología es la gestión de los datos en la nube.
  • Podemos definir al Cloud como capacidades de TI escalables y elásticas que se ofrecen como un servicio que utiliza tecnologías de Internet.
  • Tipos de Servicios en Cloud:
    • IAAS: Instalaciones y configuraciones tecnicas mas tediosas. Maquinas virtuales, redes, capacidades de almacenamiento. Ej: OpenStack
    • PAAS: Configuraciones tecnicas básicas y uso de servicios. Plataforma de aplicaciones, la integración, la gestión de procesos de negocio y servicios de BD. Ej: Kubernetes, Openshift.
    • SAAS: Software listo para usar. Ej: Office 365, Servicios de correo(gmail)
    • DAAS: BD como servicio, en realidad es un PAAS

Cloud

  • Los más grandes proveedores de Cloud:

Cloud

Almacenamiento Distribuido de información

Almacenamiento distribuido de información

Introducción

¿Cómo Nace Hadoop o el Big Data en sí? Google nace como el primer buscador de hipertexto del mundo en 1998, sin embargo a los pocos meses de su puesta en producción, el nivel de ingestion de datos se torna absurdo y los costos de hardware y el software empiezan a presentar problemas para manejar:

  • La ingestión diaria de datos de nuevos sitios web publicados
  • Incluir las imágenes que vienen con las páginas
  • Soportar la carga 24 x 7 de datos
  • Soportar las fallas cuando un equipo se averia o se pierde un disco duro integro
  • Mantener la integridad y coherencia de datos conforme el sistema crece almacenando y clasificando más datos.

Google File System

El abuelo de Hadoop Ante la enorme demanda Google crea su propio sistema de gestión distribuida de archivos para atender los problemas anteriormente descritos. Dicho sistema sirve de base para el crecimiento exponencial de Google y su capacidad de ingerir TODO lo que se publica en internet cada segundo. Este invento revoluciono la internet mediante su sistema de archivos distribuidos que se invento para almacenar de forma eficaz, es el heredero de Big Files, el sistema que tanto Larry Page y Sergei Brin los fundadores de Google crearon cuando empezaba su doctorado en la universidad de Stanford.

Fuente: https://static.googleusercontent.com/media/research.google.com/es//archive/gfs-sosp2003.pdf

Sistemas de información distribuidos

Sistemas Distribuidos Conjunto de máquinas interconectadas que actúan de forma transparente actuando como un único equipo.

  • Más dificultad para programar
    • Hay que particionar y sincronizar el acceso a los datos
  • Utilización del ancho de banda
    • Procesamiento de los datos
  • Que haya algún fallo de parte de los equipos
    • Si nos falla algún equipo el sistema debe recuperar automáticamente los datos faltantes de un espejo

HDFS Hadoop Distributed File System

Es un proyecto de software de código abierto que permite el almacenamiento (Hadoop Distributed File System) y procesamiento (MapReduce) de grandes cantidades de datos en entornos distribuidos (nos permite centrarnos en programar la solución). Características:

  • Procesamiento distribuido
  • Fácilmente escalable
  • Tolerante a fallos
  • Open source

HDFS Hadoop Distributed File System

HDFS Hadoop Distributed File System

  • Almacena ficheros de forma distribuida en un cluster.
  • HDFS permite almacenar archivos más grandes que la capacidad de un disco duro.
  • Escalable.
  • Mecanismos de tolerancia a fallos (pérdida de nodos).
  • Basado en Google File System de Google.
Optimizado para:
  • Archivos grandes.
  • Lectura secuencial.
  • No está pensado para ficheros que se actualizan frecuentemente.
  • No es recomendable para ficheros pequeños.
  • Mejor para procesamiento batch.

HDFS Hadoop Distributed File System

HDFS Funcionamiento

Bloques: unidad mínima para leer/escribir

  • (por defecto 128 MB).
  • Los ficheros se fragmentan en bloques, cada bloque se puede guardar en un nodo diferente.
  • Podemos tener ficheros más grandes que cada nodo.
  • Tenemos más concurrencia y ancho de banda, pues cada bloque almacenado en nodos distintos se puede leer a la vez (el factor de replicación es 3 por defecto).

HDFS Funcionamiento

HDFS Funcionamiento

Namenode y Datanode Es necesario gestionar la información sobre los bloques que componen cada fichero y dónde se almacenan. Dos roles diferenciados:

  • Datanode: Son esclavos, almacenan y sirven los bloques que componen cada fichero.
  • Namenode: Actúan como maestros, almacenando todos los metadatos de los ficheros (estructura directorios y bloques).

HDFS Funcionamiento

Namenode: Distribuye los bloques de forma balanceada entre los datanodes.

  • Monitoriza los datanodes (heartbeat) y si alguno se cae replica los bloques perdidos en otros datanodes.
  • Es un punto único de fallo (Single Point Of Failure) de HDFS

HDFS Funcionamiento

HDFS Funcionamiento

HDFS Funcionamiento

Map Reduce

Es un framework de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos, TERABYTES de datos) de hardware básico de manera confiable y tolerante a fallas

  • La función map ataca a un solo bloque de datos HDFS y lo divide en trozos y los manda a diferentes máquinas para que todos los trozos puedan ejecutarse concurrentemente.
  • Los resultados de este proceso pasan por una función reduce, que los recombina para obtener una salida.

Map Reduce

  • Uno de los típicos ejemplos de aplicación de MapReduce consiste en contar el número de veces que se repite una palabra en un texto.
  • Se divide en texto original en bloques o “tokens” (en este caso, grupos de 3 palabras). Cada token se pasa a una instancia de mapper que los organiza en parejas (clave=nombre fruta, valor=1 si está).
  • En el proceso de Sort and Shuffle se organizan todos los resultados parciales obtenidos por los mappers en cada instancia o nodo y se reducen al agrupar y sumar todas las ocurrencias de una palabra en concreto.
  • En el ejemplo de la Figura “Apple” aparece 4 veces, “Grapes” 1 vez, etc… Así se obtiene el resultado final con la suma de las ocurrencias de cada palabra en el texto.

Map Reduce

Map Reduce

https://www.youtube.com/watch?v=cW8racyXuvY

Definiciones adicionales

Data lake

Sandbox

Data Virtualization

Data Virtualization

  • Aquí se realizan los procesamientos en paralelo y consistente en servidores virtuales y retorno de resultados de análisis de datos
  • Aquí se realizan los procesamientos en paralelo y consistente en servidores virtuales y retorno de resultados de análisis de datos
  • Repositorio central para almacenar datos sin o con formato
  • Ingiere dinamicamente
  • Entorno de experimentos de datos en un entorno de pruebas
  • Aquí se aplican los algoritmos de Inteligencia Artificial