Want to create interactive content? It’s easy in Genially!

Get started free

2. Las memorias de traducción

Alberto Moreno

Created on August 2, 2022

Start designing with a free template

Discover more than 1500 professional designs like these:

Smart Presentation

Practical Presentation

Essential Presentation

Akihabara Presentation

Pastel Color Presentation

Visual Presentation

Relaxing Presentation

Transcript

Mtro. Francisco Espinoza

Las memorias de traducción

EMPEZAR

Introducción

Son el principal recurso en que se basan los sistemas de traducción asistida por ordenador. Es un repositorio de segmentos de texto en una lengua con traducciones a una o más lenguas.

Documento fuente

Base de datos Memoria de traducción

Documento traducido

+ info

Indexación y recuperación de segmentos

  • Las memorias de traducción son un repertorio de segmentos de texto en más de una lengua, para acceder eficientemente la memoria de traducción debe estar en una base de datos y se debió haber pasado por el proceso de indexación. La búsqueda de segmentos puede ser muy rápida si usamos este proceso.
  • La indexación de una memoria de traducción consiste en realizar un índice inverso de las palabras que aparecen ella, el índice inverso nos da el identificador de todos los segmentos en los que aparece una similitud

Las palabras muy cortas (tres letras o menos) tienden a aparecer en muchos segmentos y a veces los índices inversos no las tienen en cuenta; las palabras muy largas suelen corresponder a categorías abiertas y se toman los primeros caracteres El hecho de indexar los primeros caracteres de las palabras nos permite sintetizar la lista de segmentos.

Las palabras muy cortas (tres letras o menos) tienden a aparecer en muchos segmentos y a veces los índices inversos no las tienen en cuenta; las palabras muy largas suelen corresponder a categorías abiertas y se toman los primeros caracteres El hecho de indexar los primeros caracteres de las palabras nos permite sintetizar la lista de segmentos.

Stemming

Lematizar

También podemos indexar únicamente palabras que pertenezcan a cierta categoría gramatical (sustantivos verbos, adjetivos y adverbios) El hecho de añadir más información puede mejorar el proceso de indexación, pero también puede hacer el sistema más vulnerable a errores. Cada herramienta de traducción asistida puede utilizar una estrategia u otra para lograr la mejor eficiencia.

Cálculo de la similitud de segmentos

  • ¿En qué grado se parecen?
  • ¿QUÉ ESFUERzO DEBE HACERSE PARA PASAR DEL SEGMENTO OBTENIDO AL DESEADO?

Cálculo de Palabras Coincidentes

La primera idea que se tiene para calcular la similitud entre dos segmentos es mirar cuántas palabras tienen en común. Si todas las palabras son iguales, los segmentos tendrán una similitud del 100%, aunque el sistema falla cuando el orden de las palabras varía.

La primer idea propone: ¿Cuántas palabras tienen en común cada segmento?

La segunda idea propone: Búsqueda de coincidencias según los caracteres.

calculo de la distancia de edición

La distancia Levenshtein es el número mínimo de ediciones requeridas (inserción, supresión o sustitución de un carácter para transformar una cadena de caracteres en otra. Este cálculo puede darnos una idea muy aproximada del esfuerzo que exigiría la edición de una coincidencia parcial de una memoria en la traducción real del segmento original. Por este motivo puede utilizarse con éxito para el cálculo de la similitud entre dos segmentos.

Indicaciones de palabras coincidentes y diferentes con un codigo de clores

El programa de traducción asistida puede mostrar las coincidencias parciales distinguiendo entre palabras idénticas y diferentes, usando a menudo un código de colores

Ofrecen sugerencias para la traducción de un segmento. Índice de similitud es configurable. Recomendable: 65%-85%. Cuando hay más de una coincidencia parcial, el sistema las muestra ordenadas de mayor a menor similitud.

Coincidencia EXACTa y parcial

Coincidencia EXACTa (Exact match)

Coincidencia parcial(fuzzy match)

matizaciones

Cuando una coincidencia difiere solo en cifras:

Ejemplo 1: Estamos traduciendo “An example is shown in figure 3” En nuestra memoria tenemos “An example is shown in figure 1” y su traducción. Algunas herramientas son capaces de traducirlo a “Se muestra un ejemplo en la figura 3”.

Ejemplo 2:Estamos traduciendo “Press OK to continue” En nuestra memoria tenemos: “Press OK to continue” y su traducción. El programa propondría la traducción, pero omitiría las negritas.

Bowker (2002) distingue entre:

Coincidencia exacta (exact match):Segmentos idénticos en lingüística y en formato.

Coincidencia completa (full match):Los segmentos difieren en elementos variables (pleacebles): cifras, fechas y unidades monetarias.

COMBINACIÓN DE UNIDADES SUBSEGMENTALES

Algunos programas son capaces de buscar en la memoria coincidencias a nivel subsegmental. Algunos incluso pueden componer una nueva traducción a partir de coincidencias subsegmentales.Langas (2001) y Colominas (2008) presenta propuestas donde las subsecuencias tienen una motivación lingüística.Se trata de chunks, sintagmas no recursivos correspondientes a una categoría léxica principal (sustantivo, adjetivo, preposición y verbo) que admiten que junto con el núcleo se puedan incluir tanto premodificadores como postmodificadores.

+ info

FORMATO DE INTERCAMBIO DE MERMORIAS DE TRADUCCIÓN: TMX

Lenguaje de intercambio de memorias de traducción basado en XML llamado Translation Memory eXchange (TMX). Se dividen en:

  • Una especificación del formato del ordenador. Una entrada de segmentos alineados de textos en dos o más lenguas se denomina “unidad de traducción” y se indica con <tu>.
  • Una especificación para el formato de metamarcado de bajo nivel para el contenido de un segmento de texto de la memoria de traducción. Se indica con <seg>.

Pueden tener dos niveles de implementación:

  • Nivel 1:
Únicamente texto plano. Sirve de soporte solo para el contenedor. Contiene solo información textual.
  • Nivel 2:
Corresponde al marcado del contenido. Sirve de soporte para el contenedor y para el contenido. Esútil para traducir documentos con formato (negritas, colores, etc.) variado, ya que en muchos casos podrá recuperar también las marcas de formato y ahorrará de edición al traductor.

Creación de memorias de traducción

Memorias de Traducción y Corpus Paralelos

Traducción con Sistema de Traducción Asisitida

La creación de memorias de traducción es directa. Todos los sistemas TAO son capaces de generar memorias para cada proyecto de traducción

Estos conceptos pueden considerarse equivalentes. Los corpus paralelos poseen un tamaño relativamente grande.

Alineación Manual de documentos

La alineación manual de documentos es un proceso por el que se toman un documento original y su traducción y se genera un archivo que relaciona los segmentos originales con los correspondientes segmentos traducidos. Este proceso es útil para crear memorias a partir de documentos originales y sus traducciones.Si los documentos los hemos traducido con una herramienta de traducción asistida, no será necesario llevar a cabo este proceso. El proceso de alineación de documentos puede dividirse en dos pasos

  • Segmentación de los documentos originales y traducidos
  • Relacionar los segmentos originales con los segmentos traducidos correspondientes

La segmentación consiste en dividir el texto de los documentos a partir de un conjunto de reglas de segmentación; estas reglas nos indican donde termina un segmento y donde empieza otro.

Las herramientas de alineación manual disponen de una interfaz gráfica para relacionar los segmentos originales con los traducidos. Si el documento original y el traducido poseen un formato y puntuaciones similares, la segmentación será la bastante precisa y se requerirá menos intervención humana para completar la alineación.

Alineación automática de documentos

Se han desarrollado diversas metodologías y herramientas de alineación automática de documentos. La alineación automática de documentos sigue los pasos genéricos de segmentación, pero la relación de segmentos se hace de manera automática, se pueden distinguir tres metodologías:

basada en tecnicas graficas

Basada en la longitud de los segmentos

Basada en un diccionario bilingüe

Además Moore desarrolló una estrategia hibrida que utiliza tanto la metodología basa en la longitud, como la basada en diccionarios bilingües, este sistema no necesita de un diccionario bilingüe ya que funciona en dos pasos:Se lleva a cabo una alineación automática basada en la longitud de los segmentos y el sistema toma aquellos pares de segmentos que se alinean con seguridad, a partir de estas el sistema aprende automáticamente un diccionario bilingüe estadístico.

MEMORIAS DE TRADUCCIÓN REMOTAS COMPARTIDAS Y PÚBLICAS

Trabajar con memorias locales ha provocado algunos problemas:

  • Tamaño de la traducción (documentos pesados)
  • Problemas de confidencialidad.
Existe la posibilidad de enviar solo los segmentos de la memoria útiles para el proyecto en que se está trabando actualmente el traductor.

Herramientas de memorias de traducción remotas de software libre:

  • TM Server de Translate Toolkit.
  • amaGama
Memorias remotas de uso gratuito, pero no de software libre:
  • Googl Translator Toolkit
  • WordFast Anywhere
Memorias compartidas públicas:
  • MyMemoryTM
  • TDA Translation Repository
  • Linguee
  • Glosbe
  • MemoQ: permite tres tipos de memorias de traducción: Memorias de traducción locales, memorias de traducción remota y memorias de traducción remotas sincronizadas.

TRABAJO CON MEMORIAS DE TRADUCCIÓN

Bowker (2002) distingue dos maneras de trabajar con memorias de traducción dentro de una herramienta de traducción asistida:

Modo Interactivo (interactive mode)

Modo por lotes (batch mode)

Pseudotraducción

ANÁLISIS DE PROYECTOS Y TARIFICACIÓN

Para tarifar nuestra traducción al hacerla con un sistema de traducción asistida, hay que tener en cuenta las repeticiones internas del proyecto y los segmentos que se recuperarán de la memoria. Estadísticas de coincidencias en las memorias de traducción: Tools > Match Statistics. Cobrar diferente según:

  • Palabras de segmentos nuevos que deben traducirse desde cero.
  • Coinciencias exactas provenientes de memorias de traducción o de repeticiones internas.
  • Según los grados de similitud.
  • No es recomendable cobrar coincidencias exactas.

NUEVAS FUNCIONALIDADES

Proyecto Casmacat (Alabau, 2013).

The CasMaCat project will build the next generation translator’s workbench to improve productivity, quality, and work practices in the translation industry.

SISTEMA DE TRADUCCIÓN AUTOMÁTICA INTEGRADO

MEDIDAS DE CONFIANZA

AUTOCOMPLETADO INTELIGENTE

Conclusión

Recurso principal de las herramientas de traducción asistida: la memoria de traducción Recuperación de segmentos similares y el cálculo de la similitud entre el segmento que estamos traduciendo y los recuperados de la memoria

ANEXOpara ampliar conocimiento

CORPUS PARALELOS Y MEMORIAS DE TRADUCCIÓN DISPONIBLES PUBLICAMENTE

ETIQUETADORES MORFOSINTÁCTICOS

Verbo: VMIP1SoAdjetivo: AQoMSo Sustantivo: NCMSooo Preposicion: SPSoo

Cuando empezamos a trabajar con sistema de traducción asistida y no disponemos De ninguna memoria de traducción en el internet pueden encontrarse una gran cantidad de Corpus paralelos o Memorias de traducción disponibles para la descarga

Morfológico: Ofrece toda la información posible de cada palabra sea la correcta por el contexto o no Morfosintáctico: Pone a cada palabra el lema y la etiqueta que le corresponde Sintáctico superficial: Pone a cada palabra el lema y la etiqueta que le corresponde Sintáctico completo: Realiza un análisis sintáctico del texto en la que algunas relaciones pueden no estar presentes De dependencias: Un tipo de análisis que marca las dependencias entre palabras Semántico: Etiqueta los textos con synsets de WordNet Y es capaz de realizar desambiguación de sentido https://www.youtube.com/watch?v=UrLjV3xnV14 ( 5:30 - 8:20 )

Análisis por freeling

propiedad de las memorias de traducción

La memoria se compone de un original que puede tener sus propios derechos de autor y una traducción que genera unos derechos de traducción

GRACIAS

francisco.espinozamrn@uanl.edu.mx