Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Контакты)
(Программа курса)
 
(4 промежуточные версии не показаны)
Строка 35: Строка 35:
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
-
<tex>round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
+
<tex>round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
Строка 45: Строка 45:
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
 +
 +
===Правила сдачи экзамена===
 +
 +
Экзаменационная программа: [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/exam_program.pdf ссылка]
 +
 +
Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами.
 +
В назначенное время студент приглашается в индивидуальную зум-конференцию с преподавателем. Ориентировочное время ответа 40-60 минут.
==Программа курса==
==Программа курса==
Строка 58: Строка 65:
Предобработка, выделение признаков и классификация .
Предобработка, выделение признаков и классификация .
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/01_intro.pdf слайды]
|
|
Строка 66: Строка 73:
| 15.09
| 15.09
| Векторные представления слов
| Векторные представления слов
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/02_word_embeddings.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 75: Строка 82:
Pytorch при работе с представлениями слов.
Pytorch при работе с представлениями слов.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/03_word_embeddings_seminar.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 84: Строка 91:
Модель Linear-CRF, её упрощения и обобщения.
Модель Linear-CRF, её упрощения и обобщения.
-
| [[Media:mmta21-tagging-crf.pdf|презентация]]
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/04_tagging_crf.pdf слайды]
-
[https://youtu.be/IX3XFMMW7l0?t=645 видео]
 
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 96: Строка 102:
Применение LSTM для разметки последовательности.
Применение LSTM для разметки последовательности.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/05_tagging_rnn.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 115: Строка 121:
Архитектура transformer.
Архитектура transformer.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/07_machine_translation_transformers_old.pdf слайды (прошлый год)]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 127: Строка 133:
Задача генерации естественного языка.
Задача генерации естественного языка.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/08_language_modeling.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 138: Строка 144:
Модель BERT и её модификации.
Модель BERT и её модификации.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/09_bert.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 147: Строка 153:
Дизайн индустриальной ML-системы.
Дизайн индустриальной ML-системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/10_classification.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
Строка 155: Строка 161:
| Различные приложения DL в NLP.
| Различные приложения DL в NLP.
 +
Рекомендательные системы.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/11_ir_recsys.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 12
+
| 13
| 01.12
| 01.12
-
| Тематическое моделирование и его приложения.
+
| Автоматическая суммаризация текстов.
-
|
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/12_summarization.pdf слайды]
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 13
+
| 14
| 08.12
| 08.12
-
| TBA
+
| Диалоговые и вопросно-ответные системы.
-
 
+
| [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/13_dialog_qa_slides.pdf слайды]
-
|
+
-
|
+
-
<!-- Конец занятия -->
+
-
|- <!-- Новое занятие -->
+
-
| 14
+
-
| 15.12
+
-
| TBA
+
-
|
+
|
|
<!-- Конец занятия -->
<!-- Конец занятия -->

Текущая версия

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в zoom
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2021 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ВМК МГУ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Правила сдачи экзамена

Экзаменационная программа: ссылка

Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами. В назначенное время студент приглашается в индивидуальную зум-конференцию с преподавателем. Ориентировочное время ответа 40-60 минут.

Программа курса

Дата Тема Материалы Д/З
1 08.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

слайды
2 15.09 Векторные представления слов слайды
3 22.09 Библиотека pytorch.

Pytorch при работе с представлениями слов.

слайды
4 29.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

слайды
5 06.10

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

слайды
6 13.10

Pytorch для работы с последовательностями.

7 20.10 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

слайды (прошлый год)
8 27.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

слайды
9 10.11 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

слайды
10 17.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

слайды
11 24.11 Различные приложения DL в NLP.

Рекомендательные системы.

слайды
13 01.12 Автоматическая суммаризация текстов. слайды
14 08.12 Диалоговые и вопросно-ответные системы. слайды

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты