Want to create interactive content? It’s easy in Genially!
FRAMEWORK PARA EL PROCESAMIENTO DE DATOS
Trejo Pérez Norma Angélica
Created on November 22, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Audio tutorial
View
Pechakucha Presentation
View
Desktop Workspace
View
Decades Presentation
View
Psychology Presentation
View
Medical Dna Presentation
View
Geometric Project Presentation
Transcript
FRAMEWORK PARA EL PROCESAMIENTO DE DATOS
SPARK MILLIB Y SPARK GRAPH
Empezar
Índice
01
02
FRAMEWORK PARA EL PROCESAMIENTO
SPARK
04
03
SPARK GRAPH
SPARK MILIB
¿QUÉ ES FRAMEWORK PARA EL PROCESAMIENTO?
INFORMACIÓN
EJEMPLO
REGRESAR
¿QUÉ ES SPARK?
Apache Spark es un framework de procesamiento distribuido y no una base de datos en sí misma. Se utiliza principalmente para el procesamiento rápido y eficiente de grandes volúmenes de datos, en particular para análisis, aprendizaje automático y consultas sobre datos en grandes clústeres.
REGRESAR
¿QUE ES SPARK MILIB?
CARACTERISTICAS
CONCEPTO
SIGUIENTE
SPARK MLLIB
Velocidad
Procesamiento en tiempo real
+ info
+ info
Capacidad de procesamiento de distribución
+ info
REGRESAR
SPARK GRAPH
Spark Graph es un módulo de Apache de procesamiento de datos distribuidos, en el cual es conocido por su capacidad de procesamiento en memoria, lo que lo hace significativamente más rápido que Hadoop MapReduce.
* Almacenamiento de datos* Cache de resultados intermedios * Gestión de memoria * Resiliencia a fallos * Escalabilidad * Flexibilidad y muchos mas.
SIGUIENTE
SPARK GRAPH
VELOCIDAD: La velocidad de procesamiento de Apache Spark depende de varios factores, como el tamaño de los datos, la complejidad de las operaciones y la infraestructura subyacente.
SIGUIENTE
TRABAJANDO JUNTOSSPARK MLLIB Y GRAPH
COMAPARATIVA
- GraphX:
Supongamos que tenemos un conjunto de datos de usuarios y sus interacciones en una red social (grafico de amigos), y queremos predecir si un usuario va a ser un "super usuario" (usuarios con más de 1000 amigos).
- Creación del grafo con GraphX
- Extracción de características del grafo
- Uso de MLLib para clasificar a los usuarios según sus características
- MLlib:
REGRESAR
Se refiere a la capacidad de Spark para procesar datos a medida que se generan justo en el momento en que los datos están disponibles y gracias a esto, podemos obtener resultados de los datos inmediatamente después de que se reciban. Esto representa una gran ventaja en cuanto al tiempo de respuesta, toma de decisiones instantánea y mejora de la experiencia del usuario se refiere.
¿QUE ES?
Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.
CARACTERISTICAS
- Estructura predefinida
- Modularidad
- Automatización
- Integración
- Abstracción
- Escalabilidad
Es la capacidad de Spark para poder dividir el trabajo de procesamiento de datos entre múltiples nodos (servidores) en un clúster de manera eficiente permitiendo a la par manejar grandes volúmenes de datos y realizar cálculos complejos mucho más rápido y de manera más escalable. Además de facilitar la implementación de algoritmos de aprendizaje automático en grandes volúmenes de datos, mejora la velocidad de procesamiento y facilita la escalabilidad.
CARACTERISTICAS:
- Evaluación: Métricas específicas para evaluar a nivel de bolsa e instancia.
- Escalabilidad: Diseñado para grandes volúmenes de datos.Extensibilidad:Personalizable para integrar nuevos algoritmos.
Estructura de datos:Maneja bolsas con múltiples instancias.Compatibilidad:Soporta algoritmos como Diverse Density, SVM-MIL, y redes neuronales.
3. Recolección de basura (Garbage Collection)
Una técnica de administración de memoria automática en la que el sistema detecta y libera memoria ocupada por datos que ya no son útiles. Común en lenguajes como Java y Python para evitar fugas de memoria.
lenguaje de spark graph
Spark MLlib tiene la capacidad de procesar y analizar grandes volúmenes de datos de manera rápida y eficiente. Spark MLlib puede dividir las tareas de procesamiento entre varios nodos en un clúster de computadoras, lo que distribuye la carga de trabajo y acelera significativamente el tiempo de procesamiento. Es una característica muy importante porque para el Big Data y ML el tiempo es un recurso valioso además de mejorar la experiencia de trabajo con datos grandes
2. Instance-based MIL (IB-MIL)
Es un enfoque de aprendizaje de múltiples instancias que clasifica las bolsas basándose directamente en las instancias individuales, a menudo utilizando métodos como nearest neighbors (vecinos más cercanos) o redes neuronales.
CARCTERISTICAS
¿ QUE ES?
Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.
- Estructura predefinida
- Modularidad
- Automatización
- Integración
- Abstracción
- Escalabilidad
- Procesamiento en Memoria (In-Memory) - Compatibilidad Multilenguaje - Procesamiento Distribuido -Compatibilidad con Big Data - Escalabilidad - Interfaz SQL y DataFrames - Procesamiento en Tiempo Real - Aprendizaje Automático - Soporte para Diversos Formatos de Datos - Tolerancia a Fallos - Alta Velocidad - Integración con la Nube - Comunidad Activa y Soporte
CARACTERISTICAS
Es una herramienta de proposito general que sirve para procesar grandes cantidades de datos en forma muy rapida
Este usa otro metodo de procesamiento que es el MAP + REDUCE
En el cual hadoop tiene almacenamiento lo que se conoce como HDFS: EL SISTEMA DISTRIBUIDO DE HADOOP ese sisitema no lo contiene spark, por que se utiliza una combinacion de ambas
Esta enfocado en la verdad ya que este procesa en memoria RAM
Es mucho mas rapido que hadoop map reduce que procesa en disco
VELOCIDAD
• Paralelización: Spark utiliza un enfoque de procesamiento distribuido, lo que significa que puede dividir los datos en un clúster de máquinas. • Tungsten: El motor de ejecución Tungsten de Spark optimiza el rendimiento a nivel de código de byte. • Caching en Memoria: Spark tiene la capacidad de almacenar datos en memoria (cache) para que se accedan rápidamente.
EJEMPLO
Apache Spark es un framework de procesamiento de datos masivos (big data) que se utiliza para realizar análisis rápidos y procesamiento distribuido. Su propósito principal es manejar grandes volúmenes de datos de manera eficiente a través de un clúster de computadoras.Caso de uso específico: Una empresa de comercio electrónico usa Apache Spark para procesar grandes cantidades de datos generados por las interacciones de los usuarios con el sitio web. Spark puede analizar datos en tiempo real para hacer recomendaciones personalizadas de productos y gestionar inventarios de manera eficiente.
TRABAJO DE MEMORIA
Hace referenica cuando sistemas gestionan y procesan grandes volúmenes de datos de manera eficiente, optimizando el uso de memoria y recursos para realizar tareas complejas de aprendizaje automático o análisis de datos distribuidos.
En MILIB, que se especializa en el aprendizaje de múltiples instancias (MIL), el trabajo de memoria es crucial porque muchos de los algoritmos requieren procesar grandes cantidades de datos organizados en bolsas de instancias.
INTEGRANTES
- Norma Amgelica Trejo Perez
- Shirel Naomi Vera Gomez
- Leonardo Ledezma Mercado
- Maria AZUCENA MARTINEZ ESTRADA
- JACOBO RAMIREZ NIEVES
- KEVIN LUNA GARCIA
1. Diverse Density (DD)
Es un algoritmo central en el aprendizaje de múltiples instancias (MIL). Se basa en identificar características o puntos en el espacio de características donde varias bolsas positivas coinciden y están lejos de las bolsas negativas. Ayuda a encontrar las instancias más representativas para clasificar datos.
capacidad de procesamiento de distribución
• Escalabilidad masiva: Spark se ejecuta en un entorno distribuido y está diseñado para escalar de manera eficiente. • Capacidad de Procesamiento de Grafos: En cuanto a los grafos, Spark puede procesar grafos de millones de nodos. • Volumen de datos: Spark puede manejar grandes volúmenes de datos en tiempo real.
¿QUE ES?
Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.
CARACTERISTICAS
- Estructura predefinida
- Modularidad
- Automatización
- Integración
- Abstracción
- Escalabilidad
PROCESAMIENTO EN TIEMPO REAL
• GraphX: Aunque GraphX no está específicamente diseñado para procesamiento en tiempo real, se pueden realizar análisis en grafos en tiempo real combinando Structured Streaming con operaciones de grafos. Por ejemplo, se pueden recibir flujos de datos en tiempo real, como transacciones financieras, y actualizar el grafo dinámicamente mientras se procesan esos datos.
USOS
- Procesamiento de datos a gran escala (ETL).
- Análisis de datos estructurados y no estructurados.
- Consultas SQL con Spark SQL.
- Procesamiento en tiempo real con Spark Streaming.
- Procesamiento de datos IoT en tiempo real.
- Aprendizaje automático (Machine Learning) con MLlib.
- Entrenamiento de modelos de clasificación, regresión y clustering.
USOS
Spark Graph se utiliza en diversas aplicaciones, incluyendo:- Análisis de redes sociales- Análisis de tráfico de red- Recomendación de productos
CONCEPTO CLARO
MILIB es un framework especializado en aprendizaje de múltiples instancias (MIL) que organiza datos en bolsas (grupos de instancias) con etiquetas asignadas a nivel de bolsa, no a nivel de instancia. Se utiliza para analizar datos ambiguos o estructurados jerárquicamente.