Want to create interactive content? It’s easy in Genially!
Tecnología humanista
Carmen Molina Taboada
Created on September 4, 2025
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
Tecnología humanista
Actas manuscritas: de la transcripción a la indexación probabilística.
2025Desarrollo preproducción
2022Contrato HTR
2026Despliegue de producción
2024Contrato SW PrIx
CNADE2020 La idea
#CNADE2020
Jefe del Área de Documentación, Formación y Difusión del Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico.
Proyecto Carabela. Ponente: Carlos Alonso Villalobos
En imágenes no transcritas
Busca información textual
y puestos a pensar fuera de la caja en nuestras actas manuscritas...
- Flechazo con Transkriptorium, "spin off" de la UPV.
- Tecnología disruptiva.
- Transcribe textos ms.
- Los lleva a BBDD gestionables y navegables.
- Y un "plus" de análisis estadístico, clasificación o anonimización.
Ante la IA sería apocalíptica con ChatGPT (LLM) e integrada con respecto al AA o ML...
El medio es la IA a medida (ML) que entrena al algoritmo para aprender de los datos, actuando siempre sobre la memoria aprendida.
Puesto que IA y Archivos cruzan intereses en contextos de humanidades digitales voluminosas, el reto es gestionarlas, obtener conocimiento y rentabilidad.
Tecnologías subyacentes
CATTI
HTR
PrIx
Para cada ubicación en la imagen el sistema genera una densidad ideal de 10 hipótesis posibles (spots).
Produce transcripciones de referencia o Ground Truth (GT) para entrenar los modelos estadísticos de los sistemas HTR.
Sistema inteligente,que permite la transcripción automática del texto contenido en las imágenes.
Ground Truth (GT)
- Los métodos de aprendizaje automático necesitan GT.
- 354 imágenes transcritas manualmente sobre un total de 133 752.
- Entrenan y evalúan el modelo óptico y el modelo de lenguaje.
- Entrenamiento constante, supervisión y retroalimentación.
- Mayor efectividad y menor sesgo.
- Enfoque humano más allá del algoritmo.
Human in the loop (HITL)
- El "factor humano" contrapesa el poder de la IA.
- La herramienta necesita supervisión humana.
- Es un asistente, no reemplaza al ser humano.
- Maximiza la eficacia de la transcripción documental.
Os presento a 007
PCO 001 2024 0077
- Nuestro software de indexación probabilística
- Convierte registros inaccesibles en
- Un programa basado en IA.
- Transforma ms. en formatos digitales buscables y analizables.
Transformamos registros inaccesibles
en datos estructurados utilizables
Teoría del discurso
Informe de entrenamiento...
Desde la transcripción única con motor de búsqueda normal (OCR/HTR): 1 imagen = 200 palabras (transcripción plana) Densidad de indexación = 1 hipótesis de palabra por cada palabra real Porcentaje de error = 21,20% Hacia la indexación con múltiples hipótesis (PrIx): 1 imagen = 2000 palabras Densidad de indexación = 10 hipótesis de palabra por cada palabra real Reduce el error al 8%
Objetivo conseguido...
- Libros procesados: 256
- Cronologías: 1822-1980
- Spots encontrados: 300 130 838
- Densidad ideal de spots por palabra: 10
- Spots promedios por imagen: 2000
- Gestión y explotación de 133 172 imágenes
'Rastrear la huella de un territorio en miles de páginas'
Esperando haber iluminado el camino
Gracias Carmen Molina Taboada
estándares de reconocimiento de escritura...
CER (error de caracter) = 7,83% (optimista) WER (error de palabra) = 21,30% (pesimista, más real) AP (acierto de búsqueda) = 92 % (8% de error)
Datos relevantes
+130 000 imágenes
+250 Libros de Actas
+2000 spots/imagen
+300 000 000 spots (hipótesis)
Herramienta para atajaraspectos críticos como la falta de estructura y la necesidad de accesibilidad...