Want to create interactive content? It’s easy in Genially!

Get started free

LAS BASES DE DATOS DISTRIBUIDAS.

Jessica Fabiola Heredia Cimental

Created on September 12, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Practical Video

Akihabara Video

Essential Video

HALLOWEEN VIDEO MOBILE

Halloween Illustrated Video

Halloween video

Birthday Party Invitation

Transcript

1.LAS BASES DE DATOS DISTRIBUIDAS.

Introducción

las Bases de Datos Distribuidas emergen como soluciones fundamentales para afrontar desafíos de almacenamiento, acceso y procesamiento de información a gran escala. En esta introducción, exploraremos los fundamentos esenciales de las Bases de Datos Distribuidas, comenzando con una definición clara de lo que son, sus objetivos que abordan la escalabilidad y disponibilidad, y la arquitectura subyacente que incluye conceptos como fragmentación, replicación y coordinación de datos, todo lo cual redefine nuestra relación con la información en la era digital.

Definición de bases de datos distribuidas.

Una Base de Datos Distribuida (DDB) es como una base de datos tradicional dividida en partes dispersas físicamente pero accesibles de manera lógica, gestionada por un Sistema de Administración de Bases de Datos Distribuidas (DDBMS). Este sistema coordina el almacenamiento y procesamiento de datos en redes de computadoras interconectadas, distribuyendo las funciones de datos y procesamiento. Debe realizar todas las funciones de un sistema de gestión de base de datos centralizado y manejar las complejidades de la distribución de datos y procesos de manera transparente para el usuario.

Componentes del Sistema de Administración de BDD

Los componentes esenciales del Sistema de Administración de Bases de Datos Distribuidas (DDBMS), según Peter Rob (2004), incluyen los siguientes elementos:
  • Estaciones de Trabajo (Sitios y Nodos): Forman la infraestructura de red del sistema de Bases de Datos Distribuidas, siendo independientes del hardware de las computadoras. Estos sitios y nodos están interconectados para permitir el funcionamiento distribuido.
  • Componentes de Software y Hardware en Estaciones de Trabajo: Cada estación de trabajo contiene componentes de software y hardware que facilitan la interacción y el intercambio de datos entre los sitios. Esta diversidad de componentes puede provenir de diferentes proveedores y debe ser compatible con diversas plataformas.
  • Medios de Comunicación: Estos medios son responsables de transportar los datos entre las estaciones de trabajo. El DDBMS debe ser capaz de funcionar con varios tipos de medios de comunicación y mantener su independencia con respecto a ellos.
  • Procesador de Transacciones (TP): Es un componente de software presente en cada computadora que solicita datos. El TP recibe y procesa solicitudes de datos de aplicaciones, tanto remotas como locales. También puede conocerse como Procesador de Aplicaciones (AP) o Administrador de Transacciones (TM).
  • Procesador de Datos (DP): Este componente de software reside en cada computadora y se encarga de almacenar y recuperar datos localizados en el sitio. Es también conocido como administrador de datos (DM), y en algunos casos, puede fungir como un DBM (Database Manager) centralizado.

Ventajas y desventajas

Ventajas:

  • Organizativas:
  • Económicas:
  • Técnicas:
Desventajas:
  • Complejidad del sistema, desarrollo de software más costoso, problemas de sincronización, dificultad para conocer la corrección de los algoritmos paralelos, detección de caídas de nodos
  • Dependencia de la red de comunicaciones, sobrecarga de procesamiento de mensajes
  • Dificultad de diseño, fases adicionales
  • Poca madurez de los productos comerciales, orientados a replicación Funciones de administración compleja, sincronización y coordinación
  • Dificultad de cambio, inexistencia de metodologías Personal especializad

Componentes de una base de datos

  • BD locales
  • SGBDD
  • Diccionario o directorio globa

OBJETIVOS DE LA BASE DE DATOS DISTRIBUIDAS

Transparencia de Ubicación: Permite a los usuarios acceder a los datos sin saber dónde están físicamente almacenados, gracias a los administradores de transacciones que determinan la ubicación de los datos mediante directorios de localización. Transparencia de Duplicación: Los administradores de transacciones traducen solicitudes de transacciones en acciones para acceder a los datos. Para lecturas, eligen un nodo de almacenamiento y, para optimizarlo, necesitan información sobre el rendimiento de los nodos. En el caso de actualizaciones y escritura de datos duplicados, se emiten acciones para cada copia de datos. Estas transparencias simplifican el acceso y la gestión de datos en entornos distribuidos.
  • Transparencia de Concurrencia: Asegura que las transacciones en ejecución simultánea no interfieran entre sí, manteniendo resultados coherentes como si se ejecutaran secuencialmente.
  • Transparencia de Fallas: Garantiza que las transacciones se procesen correctamente incluso en caso de fallos, requiriendo respaldo de datos y detección de fallos para la recuperación.
  • Localidad del Procesamiento: Distribuye los datos cerca de las aplicaciones que los necesitan para minimizar la necesidad de acceso remoto, optimizando así el rendimiento.
  • Independencia de Configuración: Permite la adición o reemplazo de hardware sin modificar el software existente, facilitando la escalabilidad y actualizaciones del sistema.
  • Particionamiento de la Base de Datos: Divide la base de datos de manera que no haya duplicación de datos en diferentes ubicaciones, evitando redundancias y garantizando la disponibilidad y confiabilidad de los datos.
  • Fragmentación de Datos: Subdivide las relaciones (tablas) en fragmentos más pequeños y los distribuye entre los sitios de la red. Puede ser horizontal (por filas), vertical (por columnas) o una combinación (fragmentación híbrida), con el objetivo de optimizar la distribución de datos.

Arquitectura de las bases de datos distribuidas

El protocolo 2PC puede ser lento en la ejecución normal, pero se puede optimizar para reducir el acceso a disco y la cantidad de mensajes en las transacciones. Trata todas las transacciones de la misma manera, sin importar si se completan o se abortan. En el protocolo de bloqueo de dos fases estricto, cada subtransacción debe informar a las demás sobre los bloqueos adquiridos, especialmente cuando una transacción se divide y se ejecuta en diferentes lugares. Las subtransacción se ordenan en un coordinador y las otras participantes.
  • Cada subtransacción Ti decide si cometer o abortar, y envía al coordinador un mensaje “. El coordinador toma la decisión final en función de las votaciones de todos los participantes.
  • Cuando se presentan fallas en la red, este protocolo puede llevar a estados de bloqueo, esto es, una subtransacción en un sitio que no falló no puede cometer ni abortar hasta que se repare la falla en el sitio de origen.

Arquitectura de las bases de datos distribuidas

Se debe tomar en cuenta varios factores para la definición de la arquitectura de un sistema: Distribución: Los componentes del sistema están localizados en la misma computadora o en diferente computador.Heterogeneidad: Es cuando existen en él componentes que se ejecutan en diversos sistemas operativos.Autonomía: Se puede presentar en diferentes niveles, como son:

  • Autonomía de diseño: Está relacionadas a su propio diseño.
  • Autonomía de comunicación: Es cómo y cuándo comunicarse con otros SMBD.
  • Autonomía de ejecución: Ejecutar operaciones locales como quiera

Los sistemas de bases de datos son una forma de organizar y gestionar la información que permite separar los programas de aplicación y los datos, manejar múltiples vistas por parte de los usuarios y usar un catálogo para almacenar el esquema de la base de datos. Estos sistemas se basan en una arquitectura de tres niveles propuesta por el comité ANSI-SPARC, que consiste en el nivel físico, que describe cómo se almacenan los datos en el disco, el nivel externo, que describe cómo los usuarios ven los datos y el nivel conceptual, que describe la estructura lógica de los datos.

Arquitectura ANSI

La arquitectura de sistemas de bases de datos de tres esquemas fue aprobado por la ANSI-SPARC (American National Standard Institute - Standards Planning and Requirements Committee) en 1975 como ayuda para conseguir la separación entre los programas de aplicación y los datos, el manejo de múltiples vistas por parte de los usuarios y el uso de un catálogo para almacenar el esquema de la base de datos.

  • Nivel interno: Tiene un esquema interno que describe la estructura física de almacenamiento de base de datos. Emplea un modelo físico de datos y los únicos datos que existen están realmente en este nivel.
  • Nivel conceptual: tiene esquema conceptual. Describe la estructura de toda la base de datos para una comunidad de usuarios. Oculta los detalles físicos de almacenamiento y trabaja con elementos lógicos como entidades, atributos y relaciones.
  • Nivel externo o de vistas: tiene varios esquemas externos o vistas de usuario. Cada esquema describe la visión que tiene de la base de datos a u grupo de usuarios, ocultando el resto.
El objetivo de la arquitectura de tres niveles es el de separar los programas de aplicación de la base de datos física.

Arquitecturas de memoria compartida:Consisten de diversos procesadores los cuales accesan una misma memoria y una misma unidad de almacenamiento (uno o varios discos). Algunos ejemplos de este tipo son las computadoras sequent encoré y los mainframes IBM4090 y Bull DPS8 (figura 1).

Arquitecturas de nada compartido:Consiste de diversos procesadores cada uno con su propia memoria y su propia unidad de almacenamiento. Aquí se tienen los clústers de estaciones de trabajo, las computadoras Intel paragón, NCR 3600 y 3700 e IBM SP2 (figura 3).

Arquitectura de disco compartido:Consiste de diversos procesadores cada uno de ellos con su memoria local pero compartiendo una misma unidad de almacenamiento (uno o varios). Ejemplo de estas arquitecturas son los clúster de digital, y los modelos IMS/VS data sharing de IBM. (figura 2).

Conclusión

Las bases de datos distribuidas son una forma de gestionar la información que se distribuye en varios sitios conectados por una red. Estos temas son importantes para diseñar soluciones que se adapten a las necesidades de las organizaciones globales y descentralizadas. Las bases de datos distribuidas tienen ventajas como la autonomía, la disponibilidad, la confiabilidad, la eficiencia y la escalabilidad, pero también desafíos como la seguridad, la complejidad, la transparencia y la fragmentación. La arquitectura de las bases de datos distribuidas tiene tres niveles: el interno, el conceptual y el externo.

Referencias bibliograficas

Universidad Pedagógica de El Salvador (2017), Base de datos distribuidas, Recuperado de: https://www.studocu.com/latam/document/universidad-pedagogica-de-el-salvador/metodos-y-tecnicas-de-investigacion/bases-de-datos-distribuidas/24329505?origin=organic-success-document-viewer-cta Tema 1.1 Definici n de bases de datos distribuidas - Bases de datos distribuidas - Instituto Consorcio Clavijero. (s. f.). https://cursos.clavijero.edu.mx/cursos/080_bdd/modulo1/contenidos/tema1.1.html