Want to create interactive content? It’s easy in Genially!

Get started free

FRAMEWORK PARA EL PROCESAMIENTO DE DATOS

Trejo Pérez Norma Angélica

Created on November 22, 2024

Start designing with a free template

Discover more than 1500 professional designs like these:

Audio tutorial

Pechakucha Presentation

Desktop Workspace

Decades Presentation

Psychology Presentation

Medical Dna Presentation

Geometric Project Presentation

Transcript

FRAMEWORK PARA EL PROCESAMIENTO DE DATOS

SPARK MILLIB Y SPARK GRAPH

Empezar

Índice

01

02

FRAMEWORK PARA EL PROCESAMIENTO

SPARK

04

03

SPARK GRAPH

SPARK MILIB

¿QUÉ ES FRAMEWORK PARA EL PROCESAMIENTO?

INFORMACIÓN

EJEMPLO

REGRESAR

¿QUÉ ES SPARK?

Apache Spark es un framework de procesamiento distribuido y no una base de datos en sí misma. Se utiliza principalmente para el procesamiento rápido y eficiente de grandes volúmenes de datos, en particular para análisis, aprendizaje automático y consultas sobre datos en grandes clústeres.

REGRESAR

¿QUE ES SPARK MILIB?

CARACTERISTICAS

CONCEPTO

SIGUIENTE

SPARK MLLIB

Velocidad
Procesamiento en tiempo real

+ info

+ info

Capacidad de procesamiento de distribución

+ info

REGRESAR

SPARK GRAPH

Spark Graph es un módulo de Apache de procesamiento de datos distribuidos, en el cual es conocido por su capacidad de procesamiento en memoria, lo que lo hace significativamente más rápido que Hadoop MapReduce.

* Almacenamiento de datos* Cache de resultados intermedios * Gestión de memoria * Resiliencia a fallos * Escalabilidad * Flexibilidad y muchos mas.

SIGUIENTE

SPARK GRAPH

VELOCIDAD: La velocidad de procesamiento de Apache Spark depende de varios factores, como el tamaño de los datos, la complejidad de las operaciones y la infraestructura subyacente.

SIGUIENTE

TRABAJANDO JUNTOSSPARK MLLIB Y GRAPH
COMAPARATIVA
  • GraphX:
Entrada: Trabaja con datos en forma de grafos. Los datos son usualmente representados como vértices (nodos) y aristas (conexiones entre nodos).

Supongamos que tenemos un conjunto de datos de usuarios y sus interacciones en una red social (grafico de amigos), y queremos predecir si un usuario va a ser un "super usuario" (usuarios con más de 1000 amigos).

  • Creación del grafo con GraphX
  • Extracción de características del grafo
  • Uso de MLLib para clasificar a los usuarios según sus características

  • MLlib:
Entrada: Se utiliza con tablas de datos estructurados, que generalmente tienen columnas representando características (features) y una columna de etiquetas (label) para supervisar el aprendizaje.

REGRESAR

Se refiere a la capacidad de Spark para procesar datos a medida que se generan justo en el momento en que los datos están disponibles y gracias a esto, podemos obtener resultados de los datos inmediatamente después de que se reciban. Esto representa una gran ventaja en cuanto al tiempo de respuesta, toma de decisiones instantánea y mejora de la experiencia del usuario se refiere.

¿QUE ES?

Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.

CARACTERISTICAS

  • Estructura predefinida
  • Modularidad
  • Automatización
  • Integración
  • Abstracción
  • Escalabilidad

Es la capacidad de Spark para poder dividir el trabajo de procesamiento de datos entre múltiples nodos (servidores) en un clúster de manera eficiente permitiendo a la par manejar grandes volúmenes de datos y realizar cálculos complejos mucho más rápido y de manera más escalable. Además de facilitar la implementación de algoritmos de aprendizaje automático en grandes volúmenes de datos, mejora la velocidad de procesamiento y facilita la escalabilidad.

CARACTERISTICAS:
  • Evaluación: Métricas específicas para evaluar a nivel de bolsa e instancia.
  • Escalabilidad: Diseñado para grandes volúmenes de datos.Extensibilidad:Personalizable para integrar nuevos algoritmos.

Estructura de datos:Maneja bolsas con múltiples instancias.Compatibilidad:Soporta algoritmos como Diverse Density, SVM-MIL, y redes neuronales.

3. Recolección de basura (Garbage Collection)

Una técnica de administración de memoria automática en la que el sistema detecta y libera memoria ocupada por datos que ya no son útiles. Común en lenguajes como Java y Python para evitar fugas de memoria.

lenguaje de spark graph

Spark MLlib tiene la capacidad de procesar y analizar grandes volúmenes de datos de manera rápida y eficiente. Spark MLlib puede dividir las tareas de procesamiento entre varios nodos en un clúster de computadoras, lo que distribuye la carga de trabajo y acelera significativamente el tiempo de procesamiento. Es una característica muy importante porque para el Big Data y ML el tiempo es un recurso valioso además de mejorar la experiencia de trabajo con datos grandes

2. Instance-based MIL (IB-MIL)

Es un enfoque de aprendizaje de múltiples instancias que clasifica las bolsas basándose directamente en las instancias individuales, a menudo utilizando métodos como nearest neighbors (vecinos más cercanos) o redes neuronales.

CARCTERISTICAS

¿ QUE ES?

Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.

  • Estructura predefinida
  • Modularidad
  • Automatización
  • Integración
  • Abstracción
  • Escalabilidad

- Procesamiento en Memoria (In-Memory) - Compatibilidad Multilenguaje - Procesamiento Distribuido -Compatibilidad con Big Data - Escalabilidad - Interfaz SQL y DataFrames - Procesamiento en Tiempo Real - Aprendizaje Automático - Soporte para Diversos Formatos de Datos - Tolerancia a Fallos - Alta Velocidad - Integración con la Nube - Comunidad Activa y Soporte

CARACTERISTICAS

Es una herramienta de proposito general que sirve para procesar grandes cantidades de datos en forma muy rapida

Este usa otro metodo de procesamiento que es el MAP + REDUCE

En el cual hadoop tiene almacenamiento lo que se conoce como HDFS: EL SISTEMA DISTRIBUIDO DE HADOOP ese sisitema no lo contiene spark, por que se utiliza una combinacion de ambas

Esta enfocado en la verdad ya que este procesa en memoria RAM

Es mucho mas rapido que hadoop map reduce que procesa en disco

VELOCIDAD

• Paralelización: Spark utiliza un enfoque de procesamiento distribuido, lo que significa que puede dividir los datos en un clúster de máquinas. • Tungsten: El motor de ejecución Tungsten de Spark optimiza el rendimiento a nivel de código de byte. • Caching en Memoria: Spark tiene la capacidad de almacenar datos en memoria (cache) para que se accedan rápidamente.

EJEMPLO

Apache Spark es un framework de procesamiento de datos masivos (big data) que se utiliza para realizar análisis rápidos y procesamiento distribuido. Su propósito principal es manejar grandes volúmenes de datos de manera eficiente a través de un clúster de computadoras.Caso de uso específico: Una empresa de comercio electrónico usa Apache Spark para procesar grandes cantidades de datos generados por las interacciones de los usuarios con el sitio web. Spark puede analizar datos en tiempo real para hacer recomendaciones personalizadas de productos y gestionar inventarios de manera eficiente.

TRABAJO DE MEMORIA

Hace referenica cuando sistemas gestionan y procesan grandes volúmenes de datos de manera eficiente, optimizando el uso de memoria y recursos para realizar tareas complejas de aprendizaje automático o análisis de datos distribuidos.

En MILIB, que se especializa en el aprendizaje de múltiples instancias (MIL), el trabajo de memoria es crucial porque muchos de los algoritmos requieren procesar grandes cantidades de datos organizados en bolsas de instancias.

INTEGRANTES

  • Norma Amgelica Trejo Perez
  • Shirel Naomi Vera Gomez
  • Leonardo Ledezma Mercado
  • Maria AZUCENA MARTINEZ ESTRADA
  • JACOBO RAMIREZ NIEVES
  • KEVIN LUNA GARCIA

1. Diverse Density (DD)

Es un algoritmo central en el aprendizaje de múltiples instancias (MIL). Se basa en identificar características o puntos en el espacio de características donde varias bolsas positivas coinciden y están lejos de las bolsas negativas. Ayuda a encontrar las instancias más representativas para clasificar datos.

capacidad de procesamiento de distribución

• Escalabilidad masiva: Spark se ejecuta en un entorno distribuido y está diseñado para escalar de manera eficiente. • Capacidad de Procesamiento de Grafos: En cuanto a los grafos, Spark puede procesar grafos de millones de nodos. • Volumen de datos: Spark puede manejar grandes volúmenes de datos en tiempo real.

¿QUE ES?

Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.

CARACTERISTICAS

  • Estructura predefinida
  • Modularidad
  • Automatización
  • Integración
  • Abstracción
  • Escalabilidad

PROCESAMIENTO EN TIEMPO REAL

• GraphX: Aunque GraphX no está específicamente diseñado para procesamiento en tiempo real, se pueden realizar análisis en grafos en tiempo real combinando Structured Streaming con operaciones de grafos. Por ejemplo, se pueden recibir flujos de datos en tiempo real, como transacciones financieras, y actualizar el grafo dinámicamente mientras se procesan esos datos.

USOS

  • Procesamiento de datos a gran escala (ETL).
  • Análisis de datos estructurados y no estructurados.
  • Consultas SQL con Spark SQL.
  • Procesamiento en tiempo real con Spark Streaming.
  • Procesamiento de datos IoT en tiempo real.
  • Aprendizaje automático (Machine Learning) con MLlib.
  • Entrenamiento de modelos de clasificación, regresión y clustering.

USOS

Spark Graph se utiliza en diversas aplicaciones, incluyendo:- Análisis de redes sociales- Análisis de tráfico de red- Recomendación de productos

CONCEPTO CLARO

MILIB es un framework especializado en aprendizaje de múltiples instancias (MIL) que organiza datos en bolsas (grupos de instancias) con etiquetas asignadas a nivel de bolsa, no a nivel de instancia. Se utiliza para analizar datos ambiguos o estructurados jerárquicamente.