Want to create interactive content? It’s easy in Genially!
2. Las memorias de traducción
Alberto Moreno
Created on August 2, 2022
Start designing with a free template
Discover more than 1500 professional designs like these:
View
Smart Presentation
View
Practical Presentation
View
Essential Presentation
View
Akihabara Presentation
View
Pastel Color Presentation
View
Visual Presentation
View
Relaxing Presentation
Transcript
Mtro. Francisco Espinoza
Las memorias de traducción
EMPEZAR
Introducción
Son el principal recurso en que se basan los sistemas de traducción asistida por ordenador. Es un repositorio de segmentos de texto en una lengua con traducciones a una o más lenguas.
Documento fuente
Base de datos Memoria de traducción
Documento traducido
+ info
Indexación y recuperación de segmentos
- Las memorias de traducción son un repertorio de segmentos de texto en más de una lengua, para acceder eficientemente la memoria de traducción debe estar en una base de datos y se debió haber pasado por el proceso de indexación. La búsqueda de segmentos puede ser muy rápida si usamos este proceso.
- La indexación de una memoria de traducción consiste en realizar un índice inverso de las palabras que aparecen ella, el índice inverso nos da el identificador de todos los segmentos en los que aparece una similitud
Las palabras muy cortas (tres letras o menos) tienden a aparecer en muchos segmentos y a veces los índices inversos no las tienen en cuenta; las palabras muy largas suelen corresponder a categorías abiertas y se toman los primeros caracteres El hecho de indexar los primeros caracteres de las palabras nos permite sintetizar la lista de segmentos.
Las palabras muy cortas (tres letras o menos) tienden a aparecer en muchos segmentos y a veces los índices inversos no las tienen en cuenta; las palabras muy largas suelen corresponder a categorías abiertas y se toman los primeros caracteres El hecho de indexar los primeros caracteres de las palabras nos permite sintetizar la lista de segmentos.
Stemming
Lematizar
También podemos indexar únicamente palabras que pertenezcan a cierta categoría gramatical (sustantivos verbos, adjetivos y adverbios) El hecho de añadir más información puede mejorar el proceso de indexación, pero también puede hacer el sistema más vulnerable a errores. Cada herramienta de traducción asistida puede utilizar una estrategia u otra para lograr la mejor eficiencia.
Cálculo de la similitud de segmentos
- ¿En qué grado se parecen?
- ¿QUÉ ESFUERzO DEBE HACERSE PARA PASAR DEL SEGMENTO OBTENIDO AL DESEADO?
Cálculo de Palabras Coincidentes
La primera idea que se tiene para calcular la similitud entre dos segmentos es mirar cuántas palabras tienen en común. Si todas las palabras son iguales, los segmentos tendrán una similitud del 100%, aunque el sistema falla cuando el orden de las palabras varía.
La primer idea propone: ¿Cuántas palabras tienen en común cada segmento?
La segunda idea propone: Búsqueda de coincidencias según los caracteres.
calculo de la distancia de edición
La distancia Levenshtein es el número mínimo de ediciones requeridas (inserción, supresión o sustitución de un carácter para transformar una cadena de caracteres en otra. Este cálculo puede darnos una idea muy aproximada del esfuerzo que exigiría la edición de una coincidencia parcial de una memoria en la traducción real del segmento original. Por este motivo puede utilizarse con éxito para el cálculo de la similitud entre dos segmentos.
Indicaciones de palabras coincidentes y diferentes con un codigo de clores
El programa de traducción asistida puede mostrar las coincidencias parciales distinguiendo entre palabras idénticas y diferentes, usando a menudo un código de colores
Ofrecen sugerencias para la traducción de un segmento. Índice de similitud es configurable. Recomendable: 65%-85%. Cuando hay más de una coincidencia parcial, el sistema las muestra ordenadas de mayor a menor similitud.
Coincidencia EXACTa y parcial
Coincidencia EXACTa (Exact match)
Coincidencia parcial(fuzzy match)
matizaciones
Cuando una coincidencia difiere solo en cifras:
Ejemplo 1: Estamos traduciendo “An example is shown in figure 3” En nuestra memoria tenemos “An example is shown in figure 1” y su traducción. Algunas herramientas son capaces de traducirlo a “Se muestra un ejemplo en la figura 3”.
Ejemplo 2:Estamos traduciendo “Press OK to continue” En nuestra memoria tenemos: “Press OK to continue” y su traducción. El programa propondría la traducción, pero omitiría las negritas.
Bowker (2002) distingue entre:
Coincidencia exacta (exact match):Segmentos idénticos en lingüística y en formato.
Coincidencia completa (full match):Los segmentos difieren en elementos variables (pleacebles): cifras, fechas y unidades monetarias.
COMBINACIÓN DE UNIDADES SUBSEGMENTALES
Algunos programas son capaces de buscar en la memoria coincidencias a nivel subsegmental. Algunos incluso pueden componer una nueva traducción a partir de coincidencias subsegmentales.Langas (2001) y Colominas (2008) presenta propuestas donde las subsecuencias tienen una motivación lingüística.Se trata de chunks, sintagmas no recursivos correspondientes a una categoría léxica principal (sustantivo, adjetivo, preposición y verbo) que admiten que junto con el núcleo se puedan incluir tanto premodificadores como postmodificadores.
+ info
FORMATO DE INTERCAMBIO DE MERMORIAS DE TRADUCCIÓN: TMX
Lenguaje de intercambio de memorias de traducción basado en XML llamado Translation Memory eXchange (TMX). Se dividen en:
- Una especificación del formato del ordenador. Una entrada de segmentos alineados de textos en dos o más lenguas se denomina “unidad de traducción” y se indica con <tu>.
- Una especificación para el formato de metamarcado de bajo nivel para el contenido de un segmento de texto de la memoria de traducción. Se indica con <seg>.
Pueden tener dos niveles de implementación:
- Nivel 1:
- Nivel 2:
Creación de memorias de traducción
Memorias de Traducción y Corpus Paralelos
Traducción con Sistema de Traducción Asisitida
La creación de memorias de traducción es directa. Todos los sistemas TAO son capaces de generar memorias para cada proyecto de traducción
Estos conceptos pueden considerarse equivalentes. Los corpus paralelos poseen un tamaño relativamente grande.
Alineación Manual de documentos
La alineación manual de documentos es un proceso por el que se toman un documento original y su traducción y se genera un archivo que relaciona los segmentos originales con los correspondientes segmentos traducidos. Este proceso es útil para crear memorias a partir de documentos originales y sus traducciones.Si los documentos los hemos traducido con una herramienta de traducción asistida, no será necesario llevar a cabo este proceso. El proceso de alineación de documentos puede dividirse en dos pasos
- Segmentación de los documentos originales y traducidos
- Relacionar los segmentos originales con los segmentos traducidos correspondientes
La segmentación consiste en dividir el texto de los documentos a partir de un conjunto de reglas de segmentación; estas reglas nos indican donde termina un segmento y donde empieza otro.
Las herramientas de alineación manual disponen de una interfaz gráfica para relacionar los segmentos originales con los traducidos. Si el documento original y el traducido poseen un formato y puntuaciones similares, la segmentación será la bastante precisa y se requerirá menos intervención humana para completar la alineación.
Alineación automática de documentos
Se han desarrollado diversas metodologías y herramientas de alineación automática de documentos. La alineación automática de documentos sigue los pasos genéricos de segmentación, pero la relación de segmentos se hace de manera automática, se pueden distinguir tres metodologías:
basada en tecnicas graficas
Basada en la longitud de los segmentos
Basada en un diccionario bilingüe
Además Moore desarrolló una estrategia hibrida que utiliza tanto la metodología basa en la longitud, como la basada en diccionarios bilingües, este sistema no necesita de un diccionario bilingüe ya que funciona en dos pasos:Se lleva a cabo una alineación automática basada en la longitud de los segmentos y el sistema toma aquellos pares de segmentos que se alinean con seguridad, a partir de estas el sistema aprende automáticamente un diccionario bilingüe estadístico.
MEMORIAS DE TRADUCCIÓN REMOTAS COMPARTIDAS Y PÚBLICAS
Trabajar con memorias locales ha provocado algunos problemas:
- Tamaño de la traducción (documentos pesados)
- Problemas de confidencialidad.
Herramientas de memorias de traducción remotas de software libre:
- TM Server de Translate Toolkit.
- amaGama
- Googl Translator Toolkit
- WordFast Anywhere
- MyMemoryTM
- TDA Translation Repository
- Linguee
- Glosbe
- MemoQ: permite tres tipos de memorias de traducción: Memorias de traducción locales, memorias de traducción remota y memorias de traducción remotas sincronizadas.
TRABAJO CON MEMORIAS DE TRADUCCIÓN
Bowker (2002) distingue dos maneras de trabajar con memorias de traducción dentro de una herramienta de traducción asistida:
Modo Interactivo (interactive mode)
Modo por lotes (batch mode)
Pseudotraducción
ANÁLISIS DE PROYECTOS Y TARIFICACIÓN
Para tarifar nuestra traducción al hacerla con un sistema de traducción asistida, hay que tener en cuenta las repeticiones internas del proyecto y los segmentos que se recuperarán de la memoria. Estadísticas de coincidencias en las memorias de traducción: Tools > Match Statistics. Cobrar diferente según:
- Palabras de segmentos nuevos que deben traducirse desde cero.
- Coinciencias exactas provenientes de memorias de traducción o de repeticiones internas.
- Según los grados de similitud.
- No es recomendable cobrar coincidencias exactas.
NUEVAS FUNCIONALIDADES
Proyecto Casmacat (Alabau, 2013).
The CasMaCat project will build the next generation translator’s workbench to improve productivity, quality, and work practices in the translation industry.
SISTEMA DE TRADUCCIÓN AUTOMÁTICA INTEGRADO
MEDIDAS DE CONFIANZA
AUTOCOMPLETADO INTELIGENTE
Conclusión
Recurso principal de las herramientas de traducción asistida: la memoria de traducción Recuperación de segmentos similares y el cálculo de la similitud entre el segmento que estamos traduciendo y los recuperados de la memoria
ANEXOpara ampliar conocimiento
CORPUS PARALELOS Y MEMORIAS DE TRADUCCIÓN DISPONIBLES PUBLICAMENTE
ETIQUETADORES MORFOSINTÁCTICOS
Verbo: VMIP1SoAdjetivo: AQoMSo Sustantivo: NCMSooo Preposicion: SPSoo
Cuando empezamos a trabajar con sistema de traducción asistida y no disponemos De ninguna memoria de traducción en el internet pueden encontrarse una gran cantidad de Corpus paralelos o Memorias de traducción disponibles para la descarga
Morfológico: Ofrece toda la información posible de cada palabra sea la correcta por el contexto o no Morfosintáctico: Pone a cada palabra el lema y la etiqueta que le corresponde Sintáctico superficial: Pone a cada palabra el lema y la etiqueta que le corresponde Sintáctico completo: Realiza un análisis sintáctico del texto en la que algunas relaciones pueden no estar presentes De dependencias: Un tipo de análisis que marca las dependencias entre palabras Semántico: Etiqueta los textos con synsets de WordNet Y es capaz de realizar desambiguación de sentido https://www.youtube.com/watch?v=UrLjV3xnV14 ( 5:30 - 8:20 )
Análisis por freeling
propiedad de las memorias de traducción
La memoria se compone de un original que puede tener sus propios derechos de autor y una traducción que genera unos derechos de traducción
GRACIAS
francisco.espinozamrn@uanl.edu.mx