Математические методы анализа текстов (ВМК МГУ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Программа курса)
(Программа курса)
(8 промежуточных версий не показаны.)
Строка 19: Строка 19:
* По всем конструктивным вопросам пишите в telegram-чат
* По всем конструктивным вопросам пишите в telegram-чат
-
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_cmc_2021 ссылка]
+
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_2021_fall ссылка]
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
-
* Короткая ссылка на страницу курса: TBA
+
* Короткая ссылка на страницу курса: [https://clck.ru/XJbX2 ссылка]
 +
 
 +
* Родственный курс на ФПМИ МФТИ: [[Математические методы анализа текстов (МФТИ) / 2021 |ссылка]]
==Правила сдачи курса==
==Правила сдачи курса==
Строка 30: Строка 32:
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
-
Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку.
+
Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку.
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
-
TBA
+
<tex>round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
 +
 
 +
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен в 10-ти балльной шкале, <tex>round</tex> — математическое округление.
 +
 
 +
Есть дополнительные условия для получения каждой из оценок:
 +
* удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
 +
* хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
 +
* отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Строка 57: Строка 66:
| 14.09
| 14.09
| Векторные представления слов.
| Векторные представления слов.
-
Count-based (PMI, Glove) и prediction-based (CBOW, Skip-gram) методы.
+
Count-based и prediction-based методы.
 +
 
Построение представлений для слов не из словаря.
Построение представлений для слов не из словаря.
|
|
Строка 67: Строка 77:
| 21.09
| 21.09
| Задача разметки последовательностей (tagging).
| Задача разметки последовательностей (tagging).
-
Нейросетевые архитектуры для её решения. RNN, LSTM. Transformer.
+
Нейросетевые архитектуры для её решения.
 +
 
 +
RNN, LSTM. Transformer.
|
|
|
|
Строка 76: Строка 88:
| Структурированное обучение для задачи разметки.
| Структурированное обучение для задачи разметки.
Модель Linear-CRF, её упрощения и обобщения.
Модель Linear-CRF, её упрощения и обобщения.
 +
Комбинирование нейросетей и CRF.
Комбинирование нейросетей и CRF.
 +
|
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 84: Строка 98:
| Задача языкового моделирования.
| Задача языкового моделирования.
Статистические и нейросетевые языковые модели.
Статистические и нейросетевые языковые модели.
 +
Семейство моделей GPT.
Семейство моделей GPT.
 +
|
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 90: Строка 106:
| 6
| 6
| 12.10
| 12.10
 +
| Контекстуальные векторные представления слов.
 +
Transfer learning в NLP.
 +
 +
Модель BERT и её модификации.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| 19.10
| Машинный перевод.
| Машинный перевод.
Подход Sequence-to-sequence.
Подход Sequence-to-sequence.
 +
Эвристики при авторегрессионной генерации.
Эвристики при авторегрессионной генерации.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 8
 +
| 26.10
 +
| Тематическое моделирование и его приложения.
 +
 +
Тематический поиск.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 9
 +
| 02.11
 +
| Диалоговые и вопросно-ответные системы.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 10
 +
| 09.11
 +
| Синтаксический разбор и его применение в практических задачах.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 11
 +
| 16.11
 +
| Задача классификации текстов.
 +
Дизайн индустриальной ML-системы.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 12
 +
| 23.11
 +
| Различные приложения DL в NLP.
 +
Информационный поиск.
 +
 +
Рекомендательные системы.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 13
 +
| 30.11
 +
| Автоматическая суммаризация текстов.
 +
 +
Extractive суммаризация.
 +
 +
Abstractive суммаризация.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 14
 +
| 07.12
 +
| TBA
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 15
 +
| 14.12
 +
| TBA
 +
|
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->

Версия 09:30, 13 октября 2021

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться в аудитории TBA
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ФПМИ МФТИ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен в 10-ти балльной шкале, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

Дата Тема Материалы Д/З
1 07.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

2 14.09 Векторные представления слов.

Count-based и prediction-based методы.

Построение представлений для слов не из словаря.

3 21.09 Задача разметки последовательностей (tagging).

Нейросетевые архитектуры для её решения.

RNN, LSTM. Transformer.

4 28.09 Структурированное обучение для задачи разметки.

Модель Linear-CRF, её упрощения и обобщения.

Комбинирование нейросетей и CRF.

5 05.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Семейство моделей GPT.

6 12.10 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

7 19.10 Машинный перевод.

Подход Sequence-to-sequence.

Эвристики при авторегрессионной генерации.

8 26.10 Тематическое моделирование и его приложения.

Тематический поиск.

9 02.11 Диалоговые и вопросно-ответные системы.
10 09.11 Синтаксический разбор и его применение в практических задачах.
11 16.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

12 23.11 Различные приложения DL в NLP.

Информационный поиск.

Рекомендательные системы.

13 30.11 Автоматическая суммаризация текстов.

Extractive суммаризация.

Abstractive суммаризация.

14 07.12 TBA
15 14.12 TBA

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты