Математические методы анализа текстов (ВМК МГУ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Программа курса)
(Программа курса)
Строка 58: Строка 58:
Предобработка, выделение признаков и классификация .
Предобработка, выделение признаков и классификация .
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/01_intro.pdf слайды]
|
|
Строка 69: Строка 69:
Построение представлений для слов не из словаря.
Построение представлений для слов не из словаря.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/02_word_embeddings.pdf слайды]
|
|
Строка 80: Строка 80:
RNN, LSTM. Transformer.
RNN, LSTM. Transformer.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/03_tagging.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 90: Строка 90:
Комбинирование нейросетей и CRF.
Комбинирование нейросетей и CRF.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/04_structured_prediction.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 100: Строка 100:
Семейство моделей GPT.
Семейство моделей GPT.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/05_language_modeling.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 110: Строка 110:
Модель BERT и её модификации.
Модель BERT и её модификации.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/06_bert.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 120: Строка 120:
Эвристики при авторегрессионной генерации.
Эвристики при авторегрессионной генерации.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/07_sequence_to_sequence.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 127: Строка 127:
| 02.11
| 02.11
| Диалоговые и вопросно-ответные системы.
| Диалоговые и вопросно-ответные системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/08_dialog_qa_slides.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 134: Строка 134:
| 09.11
| 09.11
| Синтаксический разбор и его применение в практических задачах.
| Синтаксический разбор и его применение в практических задачах.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_1.pdf слайды(1)]
 +
[https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_2.pdf слайды(2)]
 +
 
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 142: Строка 144:
| Задача классификации текстов.
| Задача классификации текстов.
Дизайн индустриальной ML-системы.
Дизайн индустриальной ML-системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/10_classification.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 152: Строка 154:
Рекомендательные системы.
Рекомендательные системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/11_ir_recsys.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 163: Строка 165:
Abstractive суммаризация.
Abstractive суммаризация.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/12_summarization.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->

Версия 08:33, 30 декабря 2021

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться в аудитории TBA
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ФПМИ МФТИ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен в 10-ти балльной шкале, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

Дата Тема Материалы Д/З
1 07.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

слайды
2 14.09 Векторные представления слов.

Count-based и prediction-based методы.

Построение представлений для слов не из словаря.

слайды
3 21.09 Задача разметки последовательностей (tagging).

Нейросетевые архитектуры для её решения.

RNN, LSTM. Transformer.

слайды
4 28.09 Структурированное обучение для задачи разметки.

Модель Linear-CRF, её упрощения и обобщения.

Комбинирование нейросетей и CRF.

слайды
5 05.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Семейство моделей GPT.

слайды
6 12.10 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

слайды
7 19.10 Машинный перевод.

Подход Sequence-to-sequence.

Эвристики при авторегрессионной генерации.

слайды
8 02.11 Диалоговые и вопросно-ответные системы. слайды
9 09.11 Синтаксический разбор и его применение в практических задачах. слайды(1)

слайды(2)

10 16.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

слайды
11 30.11 Различные приложения DL в NLP.

Информационный поиск.

Рекомендательные системы.

слайды
12 07.12 Автоматическая суммаризация текстов.

Extractive суммаризация.

Abstractive суммаризация.

слайды

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты