Want to create interactive content? It’s easy in Genially!

Get started free

Telegram-бот для интерактивной практики с применением

Elizaveta

Created on June 20, 2025

Start designing with a free template

Discover more than 1500 professional designs like these:

Dynamic Visual Course

Dynamic Learning Course

Akihabara Course

Basic Interactive Course

Transcript

Telegram-бот для интерактивной практики с применением

лингвистического анализа и LDA

испанского

/start

github
Богданова Елизавета Петровна ВШЭ ДПО "Компьютерная лингвистика" 2025

/back

Предварительная работа
  1. Выбор видео: сериал Extr@ Español
  2. Whisper AI для распознавания речи из видео
  3. Выделение удобных фрагментов вручную и составление базы данных .xlsx
  4. Moviepy для нарезки видео на фрагменты
  5. Сбор обязательных слов для уровня А1-А2 (из учебных материалов) для дальнейшего сравнительного анализа

/next

/back

Тематическое моделирование LDA (латентное размещение Дирихле) подтвердило соответствие выделенных тем уровням А1-А2
  1. Романтика и дружба (24.8% токенов): любить, нравиться, свадьба, очаровывать, идеальность, ночь, сказать, хороший, хорошо, Барселона, думать и т.д.
  2. Работа и дела (23.8% токенов): доктор, репортер, квартира, работа, мама, прийти, где, здесь, сегодня, знать, разговаривать, сделать, провести и т.д.
  3. Покупки и шоппинг (22.6% токенов): чек, покупка, яйца, одежда, стоить, хотеть, интернет, номер, машина, потом, хорошо, пожалуйста и т.д.
  4. Спорт и развлечения (15.8% токенов): гол, мир, кубок, английский, выиграть, картошка фри, нуждаться, нравиться, смотреть, матч, Англия, стоить и т.д.
  5. Знакомство и рассказ о себе (13% токенов): деньги, духовка, музей, встретиться, собака, официант, сейчас, работа, хотеть, быть, спасибо звать, платье, нравиться и т.д.

/next

/back

Тематическое моделирование LDA позволило расширить словарь для маскирования слов в упражнениях с пропусками
Визуализация с библиотекой pyLDAvis

/next

/back

Тематическое моделирование LDA позволило расширить словарь для маскирования слов в упражнениях с пропусками
Визуализация с библиотекой pyLDAvis

/next

/back

Тематическое моделирование LDA позволило расширить словарь для маскирования слов в упражнениях с пропусками
Визуализация с библиотекой pyLDAvis

/next

/back

Тематическое моделирование LDA позволило расширить словарь для маскирования слов в упражнениях с пропусками
Визуализация с библиотекой pyLDAvis

/next

/back

Тематическое моделирование LDA позволило расширить словарь для маскирования слов в упражнениях с пропусками
Визуализация с библиотекой pyLDAvis

/next

/back

Частотные биграммы без фильтрации POS (обычный Counter)
TF-IDF и фильтрация POS для ключевых слов (spacy, sklearn)
Топ слов, полученных после тематического моделирования LDA
Генерация пропусков

/next

/back

Сравнительный анализ со списком основных слов А1-А2

TF-IDF и фильтрация POS для ключевых слов (spacy, sklearn)
Топ слов, полученных после тематического моделирования LDA

32.05%

21.27%

/next

/back

Функционал бота

  • Отправка видеофрагментов пользователю
  • Генерация заданий с пропущенными словами и их оценка

/next

/back

Функционал бота

  • Приём голосовых ответов от пользователя
  • Оценка произношения (Levenshtein)

/next

/back

Оценка произношения через расстояние Левенштейна

/next

/back

Функционал бота

  • Выбор фрагмента в навигационном меню
  • Возврат, повтор или продолжение в зависимости от результата и пожелания пользователя
  • Прощание с пользователем при завершении работы

/next

/back

Спасибо! ¡Gracias!

github