Want to create interactive content? It’s easy in Genially!
Get started free
Aproximación a la Lingüística de Corpus: de la teoría a la práctica
Álvaro García Conde
Created on July 14, 2024
Start designing with a free template
Discover more than 1500 professional designs like these:
Transcript
TFG
APROXIMACIÓN A LA LINGÜística de corpus: de la teoría a la práctica
ÁLVARO GARCÍA CONDE DIRECCIÓN: DRA. CARMEN CONTI JIMÉNEZ JULIO, 2024
RESUMEN Y PALABRAS CLAVE
- Avance de las nuevas tecnologías
- Lingüística de Corpus como disciplina fundamental en la investigación moderna
- Claves de creación de un corpus textual y relaciones que se establecen entre la Lingüística Computacional y la Lingüística de Corpus
- Cotejo de corpus del español
- PALABRAS CLAVE: Lingüística, corpus, lenguaje, terminología, frecuencia
ÍNDICE
INTRODUCCIÓN
1.
ESTADO DE LA CUESTIÓN
2.
COTEJO DE CORPUS DEL ESPAÑOL
3.
CONCLUSIONES
4.
BIBLIOGRAFÍA
5.
INTRODUCCIÓN
- Avances en Procesamiento del Lenguaje Natural vinculados a la Inteligencia Artificial
- Gran demanda de corpus lingüísticos anotados
- Como objetivo, análisis de la Lingüística de Corpus desde los beneficios que puede aportar la disciplina al estudio de la lengua española
- Diferencia entre lenguaje natural y el lenguaje artificial
- Los corpus permiten examinar cualquier expresión lingüística desde todos los niveles de análisis lingüístico
ESTADO DE LA CUESTIÓN
APROXIMACIÓN A LA LINGÜÍSTICA DE CORPUS
- Corpus lingüístico como conjunto de fragmentos de textos, orales o escritos, producidos en condiciones naturales, conjuntamente representativos de una lengua o de una variedad lingüística, en su totalidad o en algunos de sus componentes, que se almacenan en formato electrónico y se codifican con la intención de que puedan ser analizados científicamente
- En cuanto a las características de la Lingüística de Corpus, es empírica, ya que utiliza una amplia y organizada colección de textos como base de análisis. Además, hace uso de la informática para el procesamiento de datos en la medida en que depende de técnicas analíticas de tipo cuantitativo y cualitativo
VENTAJAS DE ESTUDIAR LA LENGUA A PARTIR DE CORPUS
- Los avances tecnológicos en lo relativo a los corpus permiten buscar, recuperar, ordenar y hacer cálculos sobre cantidades masivas de texto
- En el ámbito de la enseñanza de lenguas,
- diccionarios fundamentados en corpus;
- diseño de materiales didácticos en ELE (enseñanza de colocaciones o expresiones idiomáticas);
- cotejo entre textos académicos y textos conversacionales
VENTAJAS DE ESTUDIAR LA LENGUA A PARTIR DE CORPUS
- Los corpus permiten generar listas de frecuencias de palabras, encontrar la frecuencia de dichas palabras y n-gramas (cadenas con X número de vocablos), investigar construcciones sintácticas, realizar otras búsquedas que aborden información semántica y extraer las colocaciones de términos y frases
- Por ejemplo, PRESEEA (Proyecto para el Estudio Sociolingüístico del Español de España y de América), analiza el uso del leísmo y el laísmo en el Barrio de Salamanca, en Madrid
CRITERIOS DE CLASIFICACIÓN DE LOS CORPUS
ANOTACIÓN DE CORPUS A TRAVÉS DE MÚLTIPLES ENFOQUES
- La anotación lingüística consiste en realizar marcas o anotaciones sobre los textos que describan, analicen o relacionen aspectos concretos de la lengua
- En cuanto al modelo de anotación del IIC,
- se configura a partir de una serie de términos (T), la relación existente entre ellos (R) y su posterior interpretación, por lo que M = <T, R, I>
- En lo relativo al proceso de anotación del IIC,
- conviene diferenciar el tipo de anotación según la extensión del corpus
ANOTACIÓN DE CORPUS A TRAVÉS DE MÚLTIPLES ENFOQUES
- En lo que atañe a los distintos tipos de etiquetadores, los más recientes se inspiran en los modelos de redes neuronales profundas
- A partir de corpus anotados más grandes y con capacidad para encontrar regularidades dentro de fragmentos de palabras, se generan modelos por inferencia o aprendizaje automático
- La intervención humana se reduce a revisar las anotaciones del corpus de entrenamiento
- Los ejemplos más conocidos son los etiquetadores spaCy y Stanza
RELACIONES ENTRE LINGÜÍSTICA DE CORPUS Y COMPUTACIONAL
- Lingüística Computacional como estudio de los sistemas informáticos utilizados para la comprensión y la generación de las lenguas naturales
- El modelo computacional del lenguaje presupone una modelización matemática previa de la lengua. Encontramos dos tipos:
- modelos simbólicos;
- modelos probabilísticos.
- Como ejemplos, tenemos los diccionarios de frecuencias o los estudios estilísticos de autores
COTEJO DE CORPUS DEL ESPAÑOL
- En 2022, el Ministerio de Asuntos Económicos y Transformación Digital, en colaboración con el Instituto Cervantes, publicó un informe sobre el Estado actual de los corpus en español, lenguas cooficiales y variantes del español
- Se citan en el documento más de 190 corpus clasificables según los parámetros expuestos en el estado de la cuestión
- Para el análisis de corpus, se han seleccionado tres corpus dependientes de la RAE y otros tres que no dependen de la RAE con el objetivo de comparar todo aquello que sus interfaces nos pueden ofrecer a los usuarios
CONCLUSIONES
La Lingüística de Corpus es una metodología con unos conceptos válidos para cualquier modelo teórico. Así pues, cualquier lingüista puede explorar corpus con la seguridad de que, en poco tiempo, podrá acumular una gran cantidad de datos relevantes y sorprendentes
- Análisis pormenorizado de la Lingüística de Corpus con las ventajas que ofrece para el estudio de la lengua
- Importancia de aunar los métodos de la Lingüística de Corpus y de la Lingüística Computacional para lograr los mejores resultados posibles
José María García-Miguel