Want to create interactive content? It’s easy in Genially!

Over 30 million people create interactive content in Genially.

Check out what others have designed:

Transcript

Empezar

SPARK MILLIB Y SPARK GRAPH

FRAMEWORK PARA EL PROCESAMIENTO DE DATOS

Índice

SPARK GRAPH

04

SPARK MILIB

03

SPARK

02

FRAMEWORK PARA EL PROCESAMIENTO

01

REGRESAR

INFORMACIÓN

EJEMPLO

¿QUÉ ES FRAMEWORK PARA EL PROCESAMIENTO?

¿QUÉ ES SPARK?

REGRESAR

Apache Spark es un framework de procesamiento distribuido y no una base de datos en sí misma. Se utiliza principalmente para el procesamiento rápido y eficiente de grandes volúmenes de datos, en particular para análisis, aprendizaje automático y consultas sobre datos en grandes clústeres.

CARACTERISTICAS

CONCEPTO

SIGUIENTE

¿QUE ES SPARK MILIB?

Procesamiento en tiempo real
Velocidad

+ info

+ info

+ info

SPARK MLLIB

REGRESAR

Capacidad de procesamiento de distribución

* Almacenamiento de datos* Cache de resultados intermedios * Gestión de memoria * Resiliencia a fallos * Escalabilidad * Flexibilidad y muchos mas.

SPARK GRAPH

Spark Graph es un módulo de Apache de procesamiento de datos distribuidos, en el cual es conocido por su capacidad de procesamiento en memoria, lo que lo hace significativamente más rápido que Hadoop MapReduce.

SIGUIENTE

SPARK GRAPH

VELOCIDAD: La velocidad de procesamiento de Apache Spark depende de varios factores, como el tamaño de los datos, la complejidad de las operaciones y la infraestructura subyacente.

SIGUIENTE

  • MLlib:
Entrada: Se utiliza con tablas de datos estructurados, que generalmente tienen columnas representando características (features) y una columna de etiquetas (label) para supervisar el aprendizaje.
COMAPARATIVA
  • GraphX:
Entrada: Trabaja con datos en forma de grafos. Los datos son usualmente representados como vértices (nodos) y aristas (conexiones entre nodos).
TRABAJANDO JUNTOSSPARK MLLIB Y GRAPH

Supongamos que tenemos un conjunto de datos de usuarios y sus interacciones en una red social (grafico de amigos), y queremos predecir si un usuario va a ser un "super usuario" (usuarios con más de 1000 amigos).

  • Creación del grafo con GraphX
  • Extracción de características del grafo
  • Uso de MLLib para clasificar a los usuarios según sus características

REGRESAR

Se refiere a la capacidad de Spark para procesar datos a medida que se generan justo en el momento en que los datos están disponibles y gracias a esto, podemos obtener resultados de los datos inmediatamente después de que se reciban. Esto representa una gran ventaja en cuanto al tiempo de respuesta, toma de decisiones instantánea y mejora de la experiencia del usuario se refiere.

  • Estructura predefinida
  • Modularidad
  • Automatización
  • Integración
  • Abstracción
  • Escalabilidad

Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.

CARACTERISTICAS

¿QUE ES?

Es la capacidad de Spark para poder dividir el trabajo de procesamiento de datos entre múltiples nodos (servidores) en un clúster de manera eficiente permitiendo a la par manejar grandes volúmenes de datos y realizar cálculos complejos mucho más rápido y de manera más escalable. Además de facilitar la implementación de algoritmos de aprendizaje automático en grandes volúmenes de datos, mejora la velocidad de procesamiento y facilita la escalabilidad.

CARACTERISTICAS:
  • Evaluación: Métricas específicas para evaluar a nivel de bolsa e instancia.
  • Escalabilidad: Diseñado para grandes volúmenes de datos.Extensibilidad:Personalizable para integrar nuevos algoritmos.

Estructura de datos:Maneja bolsas con múltiples instancias.Compatibilidad:Soporta algoritmos como Diverse Density, SVM-MIL, y redes neuronales.

Una técnica de administración de memoria automática en la que el sistema detecta y libera memoria ocupada por datos que ya no son útiles. Común en lenguajes como Java y Python para evitar fugas de memoria.

3. Recolección de basura (Garbage Collection)

lenguaje de spark graph

Spark MLlib tiene la capacidad de procesar y analizar grandes volúmenes de datos de manera rápida y eficiente. Spark MLlib puede dividir las tareas de procesamiento entre varios nodos en un clúster de computadoras, lo que distribuye la carga de trabajo y acelera significativamente el tiempo de procesamiento. Es una característica muy importante porque para el Big Data y ML el tiempo es un recurso valioso además de mejorar la experiencia de trabajo con datos grandes

Es un enfoque de aprendizaje de múltiples instancias que clasifica las bolsas basándose directamente en las instancias individuales, a menudo utilizando métodos como nearest neighbors (vecinos más cercanos) o redes neuronales.

2. Instance-based MIL (IB-MIL)

  • Estructura predefinida
  • Modularidad
  • Automatización
  • Integración
  • Abstracción
  • Escalabilidad

Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.

¿ QUE ES?

CARCTERISTICAS

CARACTERISTICAS

- Procesamiento en Memoria (In-Memory) - Compatibilidad Multilenguaje - Procesamiento Distribuido -Compatibilidad con Big Data - Escalabilidad - Interfaz SQL y DataFrames - Procesamiento en Tiempo Real - Aprendizaje Automático - Soporte para Diversos Formatos de Datos - Tolerancia a Fallos - Alta Velocidad - Integración con la Nube - Comunidad Activa y Soporte

En el cual hadoop tiene almacenamiento lo que se conoce como HDFS: EL SISTEMA DISTRIBUIDO DE HADOOP ese sisitema no lo contiene spark, por que se utiliza una combinacion de ambas

Este usa otro metodo de procesamiento que es el MAP + REDUCE

Es mucho mas rapido que hadoop map reduce que procesa en disco

Esta enfocado en la verdad ya que este procesa en memoria RAM

Es una herramienta de proposito general que sirve para procesar grandes cantidades de datos en forma muy rapida

VELOCIDAD

• Paralelización: Spark utiliza un enfoque de procesamiento distribuido, lo que significa que puede dividir los datos en un clúster de máquinas. • Tungsten: El motor de ejecución Tungsten de Spark optimiza el rendimiento a nivel de código de byte. • Caching en Memoria: Spark tiene la capacidad de almacenar datos en memoria (cache) para que se accedan rápidamente.

Apache Spark es un framework de procesamiento de datos masivos (big data) que se utiliza para realizar análisis rápidos y procesamiento distribuido. Su propósito principal es manejar grandes volúmenes de datos de manera eficiente a través de un clúster de computadoras.Caso de uso específico: Una empresa de comercio electrónico usa Apache Spark para procesar grandes cantidades de datos generados por las interacciones de los usuarios con el sitio web. Spark puede analizar datos en tiempo real para hacer recomendaciones personalizadas de productos y gestionar inventarios de manera eficiente.

EJEMPLO

En MILIB, que se especializa en el aprendizaje de múltiples instancias (MIL), el trabajo de memoria es crucial porque muchos de los algoritmos requieren procesar grandes cantidades de datos organizados en bolsas de instancias.

Hace referenica cuando sistemas gestionan y procesan grandes volúmenes de datos de manera eficiente, optimizando el uso de memoria y recursos para realizar tareas complejas de aprendizaje automático o análisis de datos distribuidos.

TRABAJO DE MEMORIA

INTEGRANTES

  • Norma Amgelica Trejo Perez
  • Shirel Naomi Vera Gomez
  • Leonardo Ledezma Mercado
  • Maria AZUCENA MARTINEZ ESTRADA
  • JACOBO RAMIREZ NIEVES
  • KEVIN LUNA GARCIA

Es un algoritmo central en el aprendizaje de múltiples instancias (MIL). Se basa en identificar características o puntos en el espacio de características donde varias bolsas positivas coinciden y están lejos de las bolsas negativas. Ayuda a encontrar las instancias más representativas para clasificar datos.

1. Diverse Density (DD)

capacidad de procesamiento de distribución

• Escalabilidad masiva: Spark se ejecuta en un entorno distribuido y está diseñado para escalar de manera eficiente. • Capacidad de Procesamiento de Grafos: En cuanto a los grafos, Spark puede procesar grafos de millones de nodos. • Volumen de datos: Spark puede manejar grandes volúmenes de datos en tiempo real.

  • Estructura predefinida
  • Modularidad
  • Automatización
  • Integración
  • Abstracción
  • Escalabilidad

Un framework para el procesamiento es una estructura o conjunto de herramientas, bibliotecas y convenciones que facilita y organiza el desarrollo de aplicaciones o sistemas complejos. Los frameworks proporcionan soluciones predefinidas y componentes reutilizables que ayudan a gestionar diferentes procesos, desde el desarrollo hasta el despliegue, evitando la necesidad de reinventar la rueda para cada proyecto.

CARACTERISTICAS

¿QUE ES?

PROCESAMIENTO EN TIEMPO REAL

• GraphX: Aunque GraphX no está específicamente diseñado para procesamiento en tiempo real, se pueden realizar análisis en grafos en tiempo real combinando Structured Streaming con operaciones de grafos. Por ejemplo, se pueden recibir flujos de datos en tiempo real, como transacciones financieras, y actualizar el grafo dinámicamente mientras se procesan esos datos.

USOS

  • Procesamiento de datos a gran escala (ETL).
  • Análisis de datos estructurados y no estructurados.
  • Consultas SQL con Spark SQL.
  • Procesamiento en tiempo real con Spark Streaming.
  • Procesamiento de datos IoT en tiempo real.
  • Aprendizaje automático (Machine Learning) con MLlib.
  • Entrenamiento de modelos de clasificación, regresión y clustering.

USOS

Spark Graph se utiliza en diversas aplicaciones, incluyendo:- Análisis de redes sociales- Análisis de tráfico de red- Recomendación de productos

CONCEPTO CLARO

MILIB es un framework especializado en aprendizaje de múltiples instancias (MIL) que organiza datos en bolsas (grupos de instancias) con etiquetas asignadas a nivel de bolsa, no a nivel de instancia. Se utiliza para analizar datos ambiguos o estructurados jerárquicamente.