Cómo la recomendación altera el comportamiento laboral de las personas
Social media aplicada al Talento Humano
Agenda
Tema 2 : Big Data para la gestión del talento humano2.1 ¿Qué es Big Data?
2.2 Almacenamiento distribuido
2.3 Map Reduce
¿Big Data o Little Data, cuál es la diferencia?
Big Data definición
Es un flujo masivo de datos, con enorme variabilidad de tipología de datos, que llega en enormes volúmenes, y con alta velocidad con veracidad y con valor para ser usado por una organización en su toma de decisión futura.
Big Data definición
- BIG DATA es un término que se ha acuñado para referirse a la manipulación de una gran cantidad de datos.
- Es un conjunto de tecnologías que nació para cubrir las necesidades de almacenamiento y procesamiento de grandes volúmenes de datos y que no podían ser satisfechas por las tecnologías existentes. Basicamente nacieron porque Google necesitaba ingerir toda la información publicada vía internet para alimentar sus bases de datos y poder clasificar el contenido más relevante para una frase de búsqueda.
Big Data definición
- Computación tradicional
- Pocos datos
- Un ordenador potente bastaba; los datos estaban todos centralizados se copiaban al procesador en tiempo de ejecución para su procesado, OK para pequeñas cantidades de datos.
- Computación actual
- Muchísimos datos (terabytes, petabytes)
- No se puede tener un único ordenador
- Sistemas distribuidos
Las 5 “V” del Big Data
Variabilidad
Los datos provienen de múltiples soportes, herramientas y plataformas.
Velocidad
Valor
Los datos se generan y almacenan a una velocidad sin precedentes
Es necesario saber que tan pertinente es la información para los objetivos que se busca
Volumen
Veracidad
Gran cantidad de información difícil de procesar con los medios tradicionales
Las empresas deben asegurarse de que los datos que están recompilando tengan validez
Tecnologías Big Data
Aplicaciones
- Analítica de datos
- Generación de informes
- Análisis OLAP
- Cuadros de Mando
- Machine Learning
- Sistemas de recomendación
- Análisis social de sentimiento
- Análisis de fuga en talento humano
- Análisis de errores o fallos en la producción
- Optimización del riesgo crediticio
- Optimización de rutas logísticas Estimated Time to Point
Cloud
- Una de las grandes revoluciones recientes de la tecnología es la gestión de los datos en la nube.
- Podemos definir al Cloud como capacidades de TI escalables y elásticas que se ofrecen como un servicio que utiliza tecnologías de Internet.
- Tipos de Servicios en Cloud:
- IAAS: Instalaciones y configuraciones tecnicas mas tediosas. Maquinas virtuales, redes, capacidades de almacenamiento. Ej: OpenStack
- PAAS: Configuraciones tecnicas básicas y uso de servicios. Plataforma de aplicaciones, la integración, la gestión de procesos de negocio y servicios de BD. Ej: Kubernetes, Openshift.
- SAAS: Software listo para usar. Ej: Office 365, Servicios de correo(gmail)
- DAAS: BD como servicio, en realidad es un PAAS
Cloud
- Los más grandes proveedores de Cloud:
Cloud
Almacenamiento Distribuido de información
Almacenamiento distribuido de información
Introducción
¿Cómo Nace Hadoop o el Big Data en sí?
Google nace como el primer buscador de hipertexto del mundo en 1998, sin embargo a los pocos meses de su puesta en producción, el nivel de ingestion de datos se torna absurdo y los costos de hardware y el software empiezan a presentar problemas para manejar:
- La ingestión diaria de datos de nuevos sitios web publicados
- Incluir las imágenes que vienen con las páginas
- Soportar la carga 24 x 7 de datos
- Soportar las fallas cuando un equipo se averia o se pierde un disco duro integro
- Mantener la integridad y coherencia de datos conforme el sistema crece almacenando y clasificando más datos.
Google File System
El abuelo de Hadoop
Ante la enorme demanda Google crea su propio sistema de gestión distribuida de archivos para atender los problemas anteriormente descritos. Dicho sistema sirve de base para el crecimiento exponencial de Google y su capacidad de ingerir TODO lo que se publica en internet cada segundo.
Este invento revoluciono la internet mediante su sistema de archivos distribuidos que se invento para almacenar de forma eficaz, es el heredero de Big Files, el sistema que tanto Larry Page y Sergei Brin los fundadores de Google crearon cuando empezaba su doctorado en la universidad de Stanford.
Fuente: https://static.googleusercontent.com/media/research.google.com/es//archive/gfs-sosp2003.pdf
Sistemas de información distribuidos
Sistemas Distribuidos
Conjunto de máquinas interconectadas que actúan de forma transparente actuando como un único equipo.
- Más dificultad para programar
- Hay que particionar y sincronizar el acceso a los datos
- Utilización del ancho de banda
- Procesamiento de los datos
- Que haya algún fallo de parte de los equipos
- Si nos falla algún equipo el sistema debe recuperar automáticamente los datos faltantes de un espejo
HDFS Hadoop Distributed File System
Es un proyecto de software de código abierto que permite el almacenamiento (Hadoop Distributed File System) y procesamiento (MapReduce) de grandes cantidades de datos en entornos distribuidos (nos permite centrarnos en programar la solución).
Características:
- Procesamiento distribuido
- Fácilmente escalable
- Tolerante a fallos
- Open source
HDFS Hadoop Distributed File System
HDFS Hadoop Distributed File System
- Almacena ficheros de forma distribuida en un cluster.
- HDFS permite almacenar archivos más grandes que la capacidad de un disco duro.
- Escalable.
- Mecanismos de tolerancia a fallos (pérdida de nodos).
- Basado en Google File System de Google.
Optimizado para:
- Archivos grandes.
- Lectura secuencial.
- No está pensado para ficheros que se actualizan frecuentemente.
- No es recomendable para ficheros pequeños.
- Mejor para procesamiento batch.
HDFS Hadoop Distributed File System
HDFS Funcionamiento
Bloques: unidad mínima para leer/escribir
- (por defecto 128 MB).
- Los ficheros se fragmentan en bloques, cada bloque se puede guardar en un nodo diferente.
- Podemos tener ficheros más grandes que cada nodo.
- Tenemos más concurrencia y ancho de banda, pues cada bloque almacenado en nodos distintos se puede leer a la vez (el factor de replicación es 3 por defecto).
HDFS Funcionamiento
HDFS Funcionamiento
Namenode y Datanode
Es necesario gestionar la información sobre los bloques que componen cada fichero y dónde se almacenan.
Dos roles diferenciados:
- Datanode: Son esclavos, almacenan y sirven los bloques que componen cada fichero.
- Namenode: Actúan como maestros, almacenando todos los metadatos de los ficheros (estructura directorios y bloques).
HDFS Funcionamiento
Namenode:
Distribuye los bloques de forma balanceada entre los datanodes.
- Monitoriza los datanodes (heartbeat) y si alguno se cae replica los bloques perdidos en otros datanodes.
- Es un punto único de fallo (Single Point Of Failure) de HDFS
HDFS Funcionamiento
HDFS Funcionamiento
HDFS Funcionamiento
Map Reduce
Es un framework de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos, TERABYTES de datos) de hardware básico de manera confiable y tolerante a fallas
- La función map ataca a un solo bloque de datos HDFS y lo divide en trozos y los manda a diferentes máquinas para que todos los trozos puedan ejecutarse concurrentemente.
-
- Los resultados de este proceso pasan por una función reduce, que los recombina para obtener una salida.
Map Reduce
- Uno de los típicos ejemplos de aplicación de MapReduce consiste en contar el número de veces que se repite una palabra en un texto.
- Se divide en texto original en bloques o “tokens” (en este caso, grupos de 3 palabras). Cada token se pasa a una instancia de mapper que los organiza en parejas (clave=nombre fruta, valor=1 si está).
- En el proceso de Sort and Shuffle se organizan todos los resultados parciales obtenidos por los mappers en cada instancia o nodo y se reducen al agrupar y sumar todas las ocurrencias de una palabra en concreto.
- En el ejemplo de la Figura “Apple” aparece 4 veces, “Grapes” 1 vez, etc… Así se obtiene el resultado final con la suma de las ocurrencias de cada palabra en el texto.
Map Reduce
Map Reduce
https://www.youtube.com/watch?v=cW8racyXuvY
Definiciones adicionales
Data lake
Sandbox
Data Virtualization
Data Virtualization
- Aquí se realizan los procesamientos en paralelo y consistente en servidores virtuales y retorno de resultados de análisis de datos
- Aquí se realizan los procesamientos en paralelo y consistente en servidores virtuales y retorno de resultados de análisis de datos
- Repositorio central para almacenar datos sin o con formato
- Ingiere dinamicamente
- Entorno de experimentos de datos en un entorno de pruebas
- Aquí se aplican los algoritmos de Inteligencia Artificial
MGTH - 11 - M2 - R1
PUCE
Created on August 27, 2020
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Smart Presentation
View
Practical Presentation
View
Essential Presentation
View
Akihabara Presentation
View
Flow Presentation
View
Dynamic Visual Presentation
View
Pastel Color Presentation
Explore all templates
Transcript
Cómo la recomendación altera el comportamiento laboral de las personas
Social media aplicada al Talento Humano
Agenda
Tema 2 : Big Data para la gestión del talento humano2.1 ¿Qué es Big Data? 2.2 Almacenamiento distribuido 2.3 Map Reduce
¿Big Data o Little Data, cuál es la diferencia?
Big Data definición
Es un flujo masivo de datos, con enorme variabilidad de tipología de datos, que llega en enormes volúmenes, y con alta velocidad con veracidad y con valor para ser usado por una organización en su toma de decisión futura.
Big Data definición
Big Data definición
Las 5 “V” del Big Data
Variabilidad
Los datos provienen de múltiples soportes, herramientas y plataformas.
Velocidad
Valor
Los datos se generan y almacenan a una velocidad sin precedentes
Es necesario saber que tan pertinente es la información para los objetivos que se busca
Volumen
Veracidad
Gran cantidad de información difícil de procesar con los medios tradicionales
Las empresas deben asegurarse de que los datos que están recompilando tengan validez
Tecnologías Big Data
Aplicaciones
Cloud
Cloud
Cloud
Almacenamiento Distribuido de información
Almacenamiento distribuido de información
Introducción
¿Cómo Nace Hadoop o el Big Data en sí? Google nace como el primer buscador de hipertexto del mundo en 1998, sin embargo a los pocos meses de su puesta en producción, el nivel de ingestion de datos se torna absurdo y los costos de hardware y el software empiezan a presentar problemas para manejar:
Google File System
El abuelo de Hadoop Ante la enorme demanda Google crea su propio sistema de gestión distribuida de archivos para atender los problemas anteriormente descritos. Dicho sistema sirve de base para el crecimiento exponencial de Google y su capacidad de ingerir TODO lo que se publica en internet cada segundo. Este invento revoluciono la internet mediante su sistema de archivos distribuidos que se invento para almacenar de forma eficaz, es el heredero de Big Files, el sistema que tanto Larry Page y Sergei Brin los fundadores de Google crearon cuando empezaba su doctorado en la universidad de Stanford.
Fuente: https://static.googleusercontent.com/media/research.google.com/es//archive/gfs-sosp2003.pdf
Sistemas de información distribuidos
Sistemas Distribuidos Conjunto de máquinas interconectadas que actúan de forma transparente actuando como un único equipo.
HDFS Hadoop Distributed File System
Es un proyecto de software de código abierto que permite el almacenamiento (Hadoop Distributed File System) y procesamiento (MapReduce) de grandes cantidades de datos en entornos distribuidos (nos permite centrarnos en programar la solución). Características:
HDFS Hadoop Distributed File System
HDFS Hadoop Distributed File System
- Almacena ficheros de forma distribuida en un cluster.
- HDFS permite almacenar archivos más grandes que la capacidad de un disco duro.
- Escalable.
- Mecanismos de tolerancia a fallos (pérdida de nodos).
- Basado en Google File System de Google.
Optimizado para:HDFS Hadoop Distributed File System
HDFS Funcionamiento
Bloques: unidad mínima para leer/escribir
HDFS Funcionamiento
HDFS Funcionamiento
Namenode y Datanode Es necesario gestionar la información sobre los bloques que componen cada fichero y dónde se almacenan. Dos roles diferenciados:
HDFS Funcionamiento
Namenode: Distribuye los bloques de forma balanceada entre los datanodes.
HDFS Funcionamiento
HDFS Funcionamiento
HDFS Funcionamiento
Map Reduce
Es un framework de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos, TERABYTES de datos) de hardware básico de manera confiable y tolerante a fallas
Map Reduce
Map Reduce
Map Reduce
https://www.youtube.com/watch?v=cW8racyXuvY
Definiciones adicionales
Data lake
Sandbox
Data Virtualization
Data Virtualization