Mecanismos de funcionamiento del Big Data.
By: Charley Bautista López.
Empezar
¿Qué es Hadoop?
Hadoop es un marco de trabajo o framework de código abierto diseñado para gestionar volúmenes masivos de datos que superan la capacidad de los sistemas tradicionales. Su objetivo principal es ofrecer un entorno confiable y escalable para almacenar y procesar lo que conocemos como Big Data. A diferencia de las bases de datos convencionales, Hadoop no utiliza un único servidor centralizado, sino que trabaja de forma distribuida. Esto significa que utiliza múltiples equipos interconectados para repartir la carga de trabajo, logrando niveles de eficiencia y rapidez que serían imposibles de obtener con métodos de almacenamiento locales.
Almacenamiento.
El componente encargado de guardar la información es el HDFS. Su funcionamiento se basa en la fragmentación de los datos: cuando llega un archivo de gran tamaño, el sistema lo divide automáticamente en bloques más pequeños. Una vez divididos, estos bloques se reparten por los diferentes discos duros de la red. Para garantizar la seguridad, el sistema realiza copias de estos bloques en distintos servidores. Esta característica se denomina tolerancia a falolos, si un disco se rompe o falla físicamente, la información no se pierde, ya que el sistema la restaura automáticamente desde otro nodo donde los datos están duplicados.
Procesamiento.
Una vez almacenados los datos, el sistema MapReduce se encarga de procesarlos siguiendo una secuencia lógica de cinco pasos para ahorrar tiempo y recursos: - Entrada y División: Se recibe la materia prima y se trocea para que pueda ser analizada en diferentes puntos de la red al mismo tiempo. - Mapeo: Los datos se organizan en unidades pequeñas y manejables según su contenido. - Mezcla y Ordenación: El sistema agrupa los elementos que tienen características comunes para facilitar su conteo o análisis. - Reducción: Se resume la información eliminando la redundancia. En lugar de guardar un dato repetido cien veces, se guarda una sola vez junto al valor del número de repeticiones. - Resultado Final: Se consolida toda la información procesada en un único reporte útil.
Yet Another Resource Negotiator.
YARN es el componente que actúa como un sistema de gestión de recursos. Su función es decidir cómo se reparte la potencia de las máquinas (CPU y memoria RAM) entre todas las tareas que se están ejecutando en ese momento. Este sistema es fundamental, ya que si la cantidad de datos aumenta, basta con añadir más ordenadores al grupo llamado clúster y YARN se encargará de gestionar esos nuevos recursos automáticamente. Coordina el trabajo entre los gestores de nodos y las aplicaciones, asegurando que el hardware se use de la forma más eficiente posible según la carga de trabajo.
Ecosistema.
Hadoop no es una herramienta aislada, sino un ecosistema que integra diversos módulos para facilitar el trabajo con los datos. El componente "Hadoop Common" proporciona las bibliotecas necesarias para que todos los elementos del sistema se comuniquen entre sí correctamente. Además, permite la integración de herramientas externas especializadas como Spark, para un procesamiento mucho más rápido, o Hive y Pig, que ayudan a organizar la información de forma más sencilla. El propósito final de todo esto, es transformar una pila de datos desordenados en información valiosa que pueda ser analizada para tomar decisiones estratégicas.
HADOOP
Charley Bautista
Created on March 22, 2026
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Customer Service Course
View
Dynamic Visual Course
View
Dynamic Learning Course
View
Akihabara Course
Explore all templates
Transcript
Mecanismos de funcionamiento del Big Data.
By: Charley Bautista López.
Empezar
¿Qué es Hadoop?
Hadoop es un marco de trabajo o framework de código abierto diseñado para gestionar volúmenes masivos de datos que superan la capacidad de los sistemas tradicionales. Su objetivo principal es ofrecer un entorno confiable y escalable para almacenar y procesar lo que conocemos como Big Data. A diferencia de las bases de datos convencionales, Hadoop no utiliza un único servidor centralizado, sino que trabaja de forma distribuida. Esto significa que utiliza múltiples equipos interconectados para repartir la carga de trabajo, logrando niveles de eficiencia y rapidez que serían imposibles de obtener con métodos de almacenamiento locales.
Almacenamiento.
El componente encargado de guardar la información es el HDFS. Su funcionamiento se basa en la fragmentación de los datos: cuando llega un archivo de gran tamaño, el sistema lo divide automáticamente en bloques más pequeños. Una vez divididos, estos bloques se reparten por los diferentes discos duros de la red. Para garantizar la seguridad, el sistema realiza copias de estos bloques en distintos servidores. Esta característica se denomina tolerancia a falolos, si un disco se rompe o falla físicamente, la información no se pierde, ya que el sistema la restaura automáticamente desde otro nodo donde los datos están duplicados.
Procesamiento.
Una vez almacenados los datos, el sistema MapReduce se encarga de procesarlos siguiendo una secuencia lógica de cinco pasos para ahorrar tiempo y recursos: - Entrada y División: Se recibe la materia prima y se trocea para que pueda ser analizada en diferentes puntos de la red al mismo tiempo. - Mapeo: Los datos se organizan en unidades pequeñas y manejables según su contenido. - Mezcla y Ordenación: El sistema agrupa los elementos que tienen características comunes para facilitar su conteo o análisis. - Reducción: Se resume la información eliminando la redundancia. En lugar de guardar un dato repetido cien veces, se guarda una sola vez junto al valor del número de repeticiones. - Resultado Final: Se consolida toda la información procesada en un único reporte útil.
Yet Another Resource Negotiator.
YARN es el componente que actúa como un sistema de gestión de recursos. Su función es decidir cómo se reparte la potencia de las máquinas (CPU y memoria RAM) entre todas las tareas que se están ejecutando en ese momento. Este sistema es fundamental, ya que si la cantidad de datos aumenta, basta con añadir más ordenadores al grupo llamado clúster y YARN se encargará de gestionar esos nuevos recursos automáticamente. Coordina el trabajo entre los gestores de nodos y las aplicaciones, asegurando que el hardware se use de la forma más eficiente posible según la carga de trabajo.
Ecosistema.
Hadoop no es una herramienta aislada, sino un ecosistema que integra diversos módulos para facilitar el trabajo con los datos. El componente "Hadoop Common" proporciona las bibliotecas necesarias para que todos los elementos del sistema se comuniquen entre sí correctamente. Además, permite la integración de herramientas externas especializadas como Spark, para un procesamiento mucho más rápido, o Hive y Pig, que ayudan a organizar la información de forma más sencilla. El propósito final de todo esto, es transformar una pila de datos desordenados en información valiosa que pueda ser analizada para tomar decisiones estratégicas.