FRAMEWORK PARA EL PROCESAMIENTO DE DATOS
Trejo Pérez Norma Angélica
Created on November 22, 2024
Over 30 million people create interactive content in Genially.
Check out what others have designed:
TALK ABOUT DYS WITH TEACHER
Presentation
ESSENTIAL OILS PRESENTATION
Presentation
ANCIENT EGYPT FOR KIDS PRESENTATION
Presentation
CIRQUE DU SOLEIL
Presentation
YURI GAGARIN IN DENMARK
Presentation
EIDIKO JEWELRY
Presentation
PRODUCT MANAGEMENT IN MOVIES & TV SHOWS
Presentation
Transcript
Empezar
SPARK MILLIB Y SPARK GRAPH
FRAMEWORK PARA EL PROCESAMIENTO DE DATOS
Índice
SPARK GRAPH
04
SPARK MILIB
03
SPARK
02
FRAMEWORK PARA EL PROCESAMIENTO
01
REGRESAR
INFORMACIÓN
EJEMPLO
¿QUÉ ES FRAMEWORK PARA EL PROCESAMIENTO?
¿QUÉ ES SPARK?
REGRESAR
Apache Spark es un framework de procesamiento distribuido y no una base de datos en sí misma. Se utiliza principalmente para el procesamiento rápido y eficiente de grandes volúmenes de datos, en particular para análisis, aprendizaje automático y consultas sobre datos en grandes clústeres.
CARACTERISTICAS
CONCEPTO
SIGUIENTE
¿QUE ES SPARK MILIB?
Procesamiento en tiempo real
Velocidad
+ info
+ info
+ info
SPARK MLLIB
REGRESAR
Capacidad de procesamiento de distribución
* Almacenamiento de datos* Cache de resultados intermedios * Gestión de memoria * Resiliencia a fallos * Escalabilidad * Flexibilidad y muchos mas.
SPARK GRAPH
Spark Graph es un módulo de Apache de procesamiento de datos distribuidos, en el cual es conocido por su capacidad de procesamiento en memoria, lo que lo hace significativamente más rápido que Hadoop MapReduce.
SIGUIENTE
SPARK GRAPH
VELOCIDAD: La velocidad de procesamiento de Apache Spark depende de varios factores, como el tamaño de los datos, la complejidad de las operaciones y la infraestructura subyacente.
SIGUIENTE
- MLlib:
COMAPARATIVA
- GraphX:
TRABAJANDO JUNTOSSPARK MLLIB Y GRAPH
Supongamos que tenemos un conjunto de datos de usuarios y sus interacciones en una red social (grafico de amigos), y queremos predecir si un usuario va a ser un "super usuario" (usuarios con más de 1000 amigos).
- Creación del grafo con GraphX
- Extracción de características del grafo
- Uso de MLLib para clasificar a los usuarios según sus características
REGRESAR
Se refiere a la capacidad de Spark para procesar datos a medida que se generan justo en el momento en que los datos están disponibles y gracias a esto, podemos obtener resultados de los datos inmediatamente después de que se reciban. Esto representa una gran ventaja en cuanto al tiempo de respuesta, toma de decisiones instantánea y mejora de la experiencia del usuario se refiere.
- Estructura predefinida
- Modularidad
- Automatización
- Integración
- Abstracción
- Escalabilidad
Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.
CARACTERISTICAS
¿QUE ES?
Es la capacidad de Spark para poder dividir el trabajo de procesamiento de datos entre múltiples nodos (servidores) en un clúster de manera eficiente permitiendo a la par manejar grandes volúmenes de datos y realizar cálculos complejos mucho más rápido y de manera más escalable. Además de facilitar la implementación de algoritmos de aprendizaje automático en grandes volúmenes de datos, mejora la velocidad de procesamiento y facilita la escalabilidad.
CARACTERISTICAS:
- Evaluación: Métricas específicas para evaluar a nivel de bolsa e instancia.
- Escalabilidad: Diseñado para grandes volúmenes de datos.Extensibilidad:Personalizable para integrar nuevos algoritmos.
Estructura de datos:Maneja bolsas con múltiples instancias.Compatibilidad:Soporta algoritmos como Diverse Density, SVM-MIL, y redes neuronales.
Una técnica de administración de memoria automática en la que el sistema detecta y libera memoria ocupada por datos que ya no son útiles. Común en lenguajes como Java y Python para evitar fugas de memoria.
3. Recolección de basura (Garbage Collection)
lenguaje de spark graph
Spark MLlib tiene la capacidad de procesar y analizar grandes volúmenes de datos de manera rápida y eficiente. Spark MLlib puede dividir las tareas de procesamiento entre varios nodos en un clúster de computadoras, lo que distribuye la carga de trabajo y acelera significativamente el tiempo de procesamiento. Es una característica muy importante porque para el Big Data y ML el tiempo es un recurso valioso además de mejorar la experiencia de trabajo con datos grandes
Es un enfoque de aprendizaje de múltiples instancias que clasifica las bolsas basándose directamente en las instancias individuales, a menudo utilizando métodos como nearest neighbors (vecinos más cercanos) o redes neuronales.
2. Instance-based MIL (IB-MIL)
- Estructura predefinida
- Modularidad
- Automatización
- Integración
- Abstracción
- Escalabilidad
Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.
¿ QUE ES?
CARCTERISTICAS
CARACTERISTICAS
- Procesamiento en Memoria (In-Memory) - Compatibilidad Multilenguaje - Procesamiento Distribuido -Compatibilidad con Big Data - Escalabilidad - Interfaz SQL y DataFrames - Procesamiento en Tiempo Real - Aprendizaje Automático - Soporte para Diversos Formatos de Datos - Tolerancia a Fallos - Alta Velocidad - Integración con la Nube - Comunidad Activa y Soporte
En el cual hadoop tiene almacenamiento lo que se conoce como HDFS: EL SISTEMA DISTRIBUIDO DE HADOOP ese sisitema no lo contiene spark, por que se utiliza una combinacion de ambas
Este usa otro metodo de procesamiento que es el MAP + REDUCE
Es mucho mas rapido que hadoop map reduce que procesa en disco
Esta enfocado en la verdad ya que este procesa en memoria RAM
Es una herramienta de proposito general que sirve para procesar grandes cantidades de datos en forma muy rapida
VELOCIDAD
• Paralelización: Spark utiliza un enfoque de procesamiento distribuido, lo que significa que puede dividir los datos en un clúster de máquinas. • Tungsten: El motor de ejecución Tungsten de Spark optimiza el rendimiento a nivel de código de byte. • Caching en Memoria: Spark tiene la capacidad de almacenar datos en memoria (cache) para que se accedan rápidamente.
Apache Spark es un framework de procesamiento de datos masivos (big data) que se utiliza para realizar análisis rápidos y procesamiento distribuido. Su propósito principal es manejar grandes volúmenes de datos de manera eficiente a través de un clúster de computadoras.Caso de uso específico: Una empresa de comercio electrónico usa Apache Spark para procesar grandes cantidades de datos generados por las interacciones de los usuarios con el sitio web. Spark puede analizar datos en tiempo real para hacer recomendaciones personalizadas de productos y gestionar inventarios de manera eficiente.
EJEMPLO
En MILIB, que se especializa en el aprendizaje de múltiples instancias (MIL), el trabajo de memoria es crucial porque muchos de los algoritmos requieren procesar grandes cantidades de datos organizados en bolsas de instancias.
Hace referenica cuando sistemas gestionan y procesan grandes volúmenes de datos de manera eficiente, optimizando el uso de memoria y recursos para realizar tareas complejas de aprendizaje automático o análisis de datos distribuidos.
TRABAJO DE MEMORIA
INTEGRANTES
- Norma Amgelica Trejo Perez
- Shirel Naomi Vera Gomez
- Leonardo Ledezma Mercado
- Maria AZUCENA MARTINEZ ESTRADA
- JACOBO RAMIREZ NIEVES
- KEVIN LUNA GARCIA
Es un algoritmo central en el aprendizaje de múltiples instancias (MIL). Se basa en identificar características o puntos en el espacio de características donde varias bolsas positivas coinciden y están lejos de las bolsas negativas. Ayuda a encontrar las instancias más representativas para clasificar datos.
1. Diverse Density (DD)
capacidad de procesamiento de distribución
• Escalabilidad masiva: Spark se ejecuta en un entorno distribuido y está diseñado para escalar de manera eficiente. • Capacidad de Procesamiento de Grafos: En cuanto a los grafos, Spark puede procesar grafos de millones de nodos. • Volumen de datos: Spark puede manejar grandes volúmenes de datos en tiempo real.
- Estructura predefinida
- Modularidad
- Automatización
- Integración
- Abstracción
- Escalabilidad
Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.
CARACTERISTICAS
¿QUE ES?
PROCESAMIENTO EN TIEMPO REAL
• GraphX: Aunque GraphX no está específicamente diseñado para procesamiento en tiempo real, se pueden realizar análisis en grafos en tiempo real combinando Structured Streaming con operaciones de grafos. Por ejemplo, se pueden recibir flujos de datos en tiempo real, como transacciones financieras, y actualizar el grafo dinámicamente mientras se procesan esos datos.
USOS
- Procesamiento de datos a gran escala (ETL).
- Análisis de datos estructurados y no estructurados.
- Consultas SQL con Spark SQL.
- Procesamiento en tiempo real con Spark Streaming.
- Procesamiento de datos IoT en tiempo real.
- Aprendizaje automático (Machine Learning) con MLlib.
- Entrenamiento de modelos de clasificación, regresión y clustering.
USOS
Spark Graph se utiliza en diversas aplicaciones, incluyendo:- Análisis de redes sociales- Análisis de tráfico de red- Recomendación de productos
CONCEPTO CLARO
MILIB es un framework especializado en aprendizaje de múltiples instancias (MIL) que organiza datos en bolsas (grupos de instancias) con etiquetas asignadas a nivel de bolsa, no a nivel de instancia. Se utiliza para analizar datos ambiguos o estructurados jerárquicamente.