Математические методы анализа текстов (ВМК МГУ) / 2021
Материал из MachineLearning.
(→Программа курса) |
(→Правила выставления итоговой оценки) |
||
(2 промежуточные версии не показаны) | |||
Строка 45: | Строка 45: | ||
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа. | Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа. | ||
+ | |||
+ | Программа экзамена: [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/exam_program.pdf ссылка] | ||
==Программа курса== | ==Программа курса== | ||
Строка 58: | Строка 60: | ||
Предобработка, выделение признаков и классификация . | Предобработка, выделение признаков и классификация . | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/01_intro.pdf слайды] |
| | | | ||
Строка 69: | Строка 71: | ||
Построение представлений для слов не из словаря. | Построение представлений для слов не из словаря. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/02_word_embeddings.pdf слайды] |
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/01_word_embeddings дз] |
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
Строка 80: | Строка 82: | ||
RNN, LSTM. Transformer. | RNN, LSTM. Transformer. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/03_tagging.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
Строка 90: | Строка 92: | ||
Комбинирование нейросетей и CRF. | Комбинирование нейросетей и CRF. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/04_structured_prediction.pdf слайды] |
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/02_ner дз] |
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
Строка 100: | Строка 102: | ||
Семейство моделей GPT. | Семейство моделей GPT. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/05_language_modeling.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
Строка 110: | Строка 112: | ||
Модель BERT и её модификации. | Модель BERT и её модификации. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/06_bert.pdf слайды] |
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/03_bert дз] |
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
Строка 120: | Строка 122: | ||
Эвристики при авторегрессионной генерации. | Эвристики при авторегрессионной генерации. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/07_sequence_to_sequence.pdf слайды] |
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/04_generation дз] |
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
Строка 127: | Строка 129: | ||
| 02.11 | | 02.11 | ||
| Диалоговые и вопросно-ответные системы. | | Диалоговые и вопросно-ответные системы. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/08_dialog_qa_slides.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
Строка 134: | Строка 136: | ||
| 09.11 | | 09.11 | ||
| Синтаксический разбор и его применение в практических задачах. | | Синтаксический разбор и его применение в практических задачах. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_1.pdf слайды(1)] |
+ | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_2.pdf слайды(2)] | ||
+ | |||
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
Строка 142: | Строка 146: | ||
| Задача классификации текстов. | | Задача классификации текстов. | ||
Дизайн индустриальной ML-системы. | Дизайн индустриальной ML-системы. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/10_classification.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
Строка 152: | Строка 156: | ||
Рекомендательные системы. | Рекомендательные системы. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/11_ir_recsys.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
Строка 163: | Строка 167: | ||
Abstractive суммаризация. | Abstractive суммаризация. | ||
- | | | + | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/12_summarization.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> |
Текущая версия
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Содержание |
Объявления
Нет
Контакты
- Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.
- В этом семестре занятия будут проводиться в аудитории TBA
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Видеозаписи лекций 2020 года: ссылка
- Короткая ссылка на страницу курса: ссылка
- Родственный курс на ФПМИ МФТИ: ссылка
Правила сдачи курса
Правила выставления итоговой оценки
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
, где
— оценка за дз,
— оценка за экзамен в 10-ти балльной шкале,
— математическое округление.
Есть дополнительные условия для получения каждой из оценок:
- удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
- хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
- отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Программа экзамена: ссылка
Программа курса
№ | Дата | Тема | Материалы | Д/З |
---|---|---|---|---|
1 | 07.09 | Организация курса, правила игры.
Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация . | слайды | |
2 | 14.09 | Векторные представления слов.
Count-based и prediction-based методы. Построение представлений для слов не из словаря. | слайды | дз |
3 | 21.09 | Задача разметки последовательностей (tagging).
Нейросетевые архитектуры для её решения. RNN, LSTM. Transformer. | слайды | |
4 | 28.09 | Структурированное обучение для задачи разметки.
Модель Linear-CRF, её упрощения и обобщения. Комбинирование нейросетей и CRF. | слайды | дз |
5 | 05.10 | Задача языкового моделирования.
Статистические и нейросетевые языковые модели. Семейство моделей GPT. | слайды | |
6 | 12.10 | Контекстуальные векторные представления слов.
Transfer learning в NLP. Модель BERT и её модификации. | слайды | дз |
7 | 19.10 | Машинный перевод.
Подход Sequence-to-sequence. Эвристики при авторегрессионной генерации. | слайды | дз |
8 | 02.11 | Диалоговые и вопросно-ответные системы. | слайды | |
9 | 09.11 | Синтаксический разбор и его применение в практических задачах. | слайды(1) | |
10 | 16.11 | Задача классификации текстов.
Дизайн индустриальной ML-системы. | слайды | |
11 | 30.11 | Различные приложения DL в NLP.
Информационный поиск. Рекомендательные системы. | слайды | |
12 | 07.12 | Автоматическая суммаризация текстов.
Extractive суммаризация. Abstractive суммаризация. | слайды |
Страницы прошлых лет
- Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
- Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
- Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP