Want to create interactive content? It’s easy in Genially!

Get started free

Epistemic

angel Iglesias

Created on October 27, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

Terrazzo Presentation

Visual Presentation

Relaxing Presentation

Modern Presentation

Colorful Presentation

Modular Structure Presentation

Chromatic Presentation

Transcript

Epistemic Diversity and Knowledge Collapse in Large Language Models

Dustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Peter Ebert Christiansen, Chan Young Park, Isabelle Augenstein (Universidad de Copenhague, Stanford University, University of Colorado Boulder, Microsoft Research).

Epistemic Diversity and Knowledge Collapse in Large Language Models

Dustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Peter Ebert Christiansen, Chan Young Park, Isabelle Augenstein (Universidad de Copenhague, Stanford University, University of Colorado Boulder, Microsoft Research).

Publicado en arXiv (8 de octubre de 2025). arXiv es un repositorio gratuito y de acceso abierto, administrado por la Universidad de Cornell en Nueva York, con más de 2.4 millones de artículos académicos. Abarca áreas como física, matemáticas, ciencias de la computación, biología cuantitativa, economía y otras. Los textos se difunden antes de la revisión por pares, como parte del proceso de comunicación científica abierta.

Introducción

  • Para entender este riesgo, los autores proponen medir la diversidad epistémica (epistemic diversity) (Wright et al., 2025): la variedad de afirmaciones (claims) sobre un tema en un corpus de respuestas de LLMs.
  • Un claim es una afirmación que el modelo hace. No toda la oración, sino la idea concreta que expresa.
  • Los autores introducen el término RAG (Retrieval-Augmented Generation): una técnica que permite al modelo buscar información externa antes de generar su respuesta.
  • Los LLMs se utilizan cada vez más en tareas relacionadas con el conocimiento: resumir textos (summarization), asistir en la redacción (writing assistance), apoyar la investigación (research) y responder directamente desde buscadores (AI Overviews).
  • Investigaciones recientes muestran que sus respuestas son homogéneas, con estilos y vocabulario limitados (central tendency) (Sourati et al., 2025).

Antecedentes

Los LLMs se usan cada vez más para tareas centradas en el conocimiento y pueden influenciar el comportamiento humano (Yang et al., 2024; Anderson et al., 2024). Si sus respuestas carecen de diversidad, esto puede reducir la diversidad epistémica colectiva. El estudio aborda este riesgo desde dos ejes:

  • LLM homogenization: falta de diversidad léxica, semántica, creativa y de perspectivas (Sourati, Lee, Xu, Wright, Zhang, Durmus).
  • Knowledge collapse: concentración del conocimiento en un número limitado de ideas (Peterson, 2025), lo que puede afectar en fuentes de conocimiento como Wikipedia (Wagner & Jiang, 2025), borrar saberes minorizados (Zheng & Lee, 2023), limitar la investigación (Messeri & Crockett, 2024), empobrecer el discurso político (Coeckelbergh, 2025) y limitar la creatividad en la escritura (Anderson et al., 2024).

Metodología

3. Agrupación de las clases de significado (meaning classes)

  • Agrupan los claims en grupos de significado único.
  • Todas las afirmaciones que significan lo mismo van en el mismo grupo.
  • Frases con significados diferentes (aunque parezcan similares) van en otro grupo. Esto evita errores de solo usar “semantic similarity”.
Ejemplo Claim 1: “Claude Shannon is the father of information theory.” Claim 2: “Claude Shannon is not the father of information theory. (Similitud semántica = 0.94) Claim 1: “Shannon is the father of information theory” Claim 2: “Shannon is not the father of information theory” (Similitud semántica = 0.805) No van al mismo grupo.

1. Recolección de respuestas

  • Usaron 200 prompts naturales (de escritura - WildChat) y los modelos responden libremente (no es opción múltiple).
  • Cada modelo genera varios textos sobre 155 temas.
  • Esto forma un corpus de respuestas por modelo y tema.

2. Extracción de claims

  • Dividen cada respuesta en claims, es decir, afirmaciones concretas.
Ejemplo:“Claude Shannon invented information theory in 1948” Claim 1: Claude Shannon invented information theory Claim 2: In 1948.

Metodología

4. Medición de la diversidad con índice Hill-Shannon La fórmula que usan proviene de la ecología (medir cuántas especies distintas hay en un ecosistema): donde: H = entropía de Shannon, S = número total de meaning classes (grupos de afirmaciones diferentes), p𝑖 = proporción de claims que pertenecen a la clase 𝑖 (frecuencia relativa), ln = logaritmo natural.

Si un modelo dice casi siempre lo mismo hay baja diversidad = 𝐻 pequeño. Si un modelo da muchas respuestas diferentes hay alta diversidad = 𝐻 grande.

Metodología

5. entre modelos y técnicas

  • Compararon 27 modelos de 4 familias diferentes (Llama, Gemma, Qwen y OpenAI).
  • Midieron diversidad en 2023 y 2025.
  • Modelos grandes vs pequeños 🧠
  • Con y sin RAG .
  • Analizaron prompts relacionados con 12 países.
RAG = Retrieval-Augmented Generation: Significa que el modelo busca información antes de responder. Eso hace que sus respuestas sean más diversas y actualizadas, en lugar de depender solo de lo que ya sabe.

Resultados

Efecto de RAG (Retrieval-Augmented Generation): Aumenta significativamente la diversidad epistémica.

Tendencia temporal: la diversidad epistémica aumentó en 3 (Llama, Gemma, Qwen) de las 4 familias de modelos entre 2023 y 2025, pero sigue siendo menor que en búsquedas web.

Desigualdad geolingüística: Mayor diversidad en temas relacionados con 🇺🇸 EE. UU. (más fuentes en inglés). Menor diversidad para países con menos información disponible en inglés.

Tamaño del modelo: Modelos grandes presentan menor diversidad. Modelos pequeños presentan mayor diversidad (Zhang et al., 2025).

Conclusiones según la investigación

  • La técnica RAG (Retrieval-Augmented Generation) aumenta la diversidad epistémica, pero no soluciona completamente el problema.
  • Existe una asimetría geolingüística: los modelos tienen más diversidad para países con fuentes en inglés (como EE. UU.) que para otros.
  • Los LLMs tienden a homogeneizar la información, reduciendo perspectivas y variedad (homogenization — Sourati et al., 2025).
  • La diversidad epistémica (epistemic diversity) (Wright et al., 2025) permite medir esta pérdida de variedad en las respuestas de los modelos.
  • El fenómeno de knowledge collapse (Peterson, 2025) representa un riesgo epistémico: concentración de ideas y eliminación de perspectivas minoritarias.

Referencia principal: Peterson, A. J., Wright, J., Farquhar, S., Sourati, J., Lee, J., y Röttger, P. (2025). Epistemic diversity and knowledge collapse in large language models. Prepublicación en arXiv:2510.04899. Recuperado de https://arxiv.org/abs/2510.04899