Математические методы анализа текстов (ВМК МГУ) / 2021
Материал из MachineLearning.
(→Правила выставления итоговой оценки) |
|||
(19 промежуточных версий не показаны.) | |||
Строка 13: | Строка 13: | ||
==Контакты== | ==Контакты== | ||
- | * Преподаватели курса: [[Участник:Arti_lehtonen|Попов А.С.]], [[Участник:mapishev|Апишев М.А.]] | + | * Преподаватели курса: [[Участник:Arti_lehtonen|Попов А.С.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:KKhrylchenko| Хрыльченко К.Я.]], [[Участник:Vokov|Воронцов К.В.]] |
* В этом семестре занятия будут проводиться в аудитории TBA | * В этом семестре занятия будут проводиться в аудитории TBA | ||
Строка 19: | Строка 19: | ||
* По всем конструктивным вопросам пишите в telegram-чат | * По всем конструктивным вопросам пишите в telegram-чат | ||
- | * Репозиторий со всеми материалами: [https://github.com/mmta-team/ | + | * Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_2021_fall ссылка] |
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка] | * Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка] | ||
- | * Короткая ссылка на страницу курса: | + | * Короткая ссылка на страницу курса: [https://clck.ru/XJbX2 ссылка] |
+ | * Родственный курс на ФПМИ МФТИ: [[Математические методы анализа текстов (МФТИ) / 2021 |ссылка]] | ||
+ | |||
+ | ==Правила сдачи курса== | ||
===Правила выставления итоговой оценки=== | ===Правила выставления итоговой оценки=== | ||
- | Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. | + | В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3. |
+ | |||
+ | Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. | ||
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле: | Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле: | ||
- | <tex>round() \times \mathbb{I}[E >= 3] </tex>, где | + | <tex>round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где |
- | <tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление. | + | <tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен в 10-ти балльной шкале, <tex>round</tex> — математическое округление. |
Есть дополнительные условия для получения каждой из оценок: | Есть дополнительные условия для получения каждой из оценок: | ||
Строка 40: | Строка 45: | ||
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа. | Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа. | ||
+ | |||
+ | Программа экзамена: [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/exam_program.pdf ссылка] | ||
+ | |||
+ | ==Программа курса== | ||
+ | |||
+ | {|class = "standard" | ||
+ | ! № !! Дата !! Тема !! Материалы !! Д/З | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 1 | ||
+ | | 07.09 | ||
+ | | Организация курса, правила игры. | ||
+ | |||
+ | Введение в обработку текстов (Natural Language Processing). | ||
+ | |||
+ | Предобработка, выделение признаков и классификация . | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/01_intro.pdf слайды] | ||
+ | |||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 2 | ||
+ | | 14.09 | ||
+ | | Векторные представления слов. | ||
+ | Count-based и prediction-based методы. | ||
+ | |||
+ | Построение представлений для слов не из словаря. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/02_word_embeddings.pdf слайды] | ||
+ | |||
+ | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/01_word_embeddings дз] | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 3 | ||
+ | | 21.09 | ||
+ | | Задача разметки последовательностей (tagging). | ||
+ | Нейросетевые архитектуры для её решения. | ||
+ | |||
+ | RNN, LSTM. Transformer. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/03_tagging.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 4 | ||
+ | | 28.09 | ||
+ | | Структурированное обучение для задачи разметки. | ||
+ | Модель Linear-CRF, её упрощения и обобщения. | ||
+ | |||
+ | Комбинирование нейросетей и CRF. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/04_structured_prediction.pdf слайды] | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/02_ner дз] | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 5 | ||
+ | | 05.10 | ||
+ | | Задача языкового моделирования. | ||
+ | Статистические и нейросетевые языковые модели. | ||
+ | |||
+ | Семейство моделей GPT. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/05_language_modeling.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 6 | ||
+ | | 12.10 | ||
+ | | Контекстуальные векторные представления слов. | ||
+ | Transfer learning в NLP. | ||
+ | |||
+ | Модель BERT и её модификации. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/06_bert.pdf слайды] | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/03_bert дз] | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 7 | ||
+ | | 19.10 | ||
+ | | Машинный перевод. | ||
+ | Подход Sequence-to-sequence. | ||
+ | |||
+ | Эвристики при авторегрессионной генерации. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/07_sequence_to_sequence.pdf слайды] | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/tree/main/cmc/tasks/04_generation дз] | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 8 | ||
+ | | 02.11 | ||
+ | | Диалоговые и вопросно-ответные системы. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/08_dialog_qa_slides.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 9 | ||
+ | | 09.11 | ||
+ | | Синтаксический разбор и его применение в практических задачах. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_1.pdf слайды(1)] | ||
+ | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/09_syntax_parsing_2.pdf слайды(2)] | ||
+ | |||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 10 | ||
+ | | 16.11 | ||
+ | | Задача классификации текстов. | ||
+ | Дизайн индустриальной ML-системы. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/10_classification.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 11 | ||
+ | | 30.11 | ||
+ | | Различные приложения DL в NLP. | ||
+ | Информационный поиск. | ||
+ | |||
+ | Рекомендательные системы. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/11_ir_recsys.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 12 | ||
+ | | 07.12 | ||
+ | | Автоматическая суммаризация текстов. | ||
+ | |||
+ | Extractive суммаризация. | ||
+ | |||
+ | Abstractive суммаризация. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/cmc/slides/12_summarization.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |} | ||
==Страницы прошлых лет== | ==Страницы прошлых лет== |
Текущая версия
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Содержание |
Объявления
Нет
Контакты
- Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.
- В этом семестре занятия будут проводиться в аудитории TBA
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Видеозаписи лекций 2020 года: ссылка
- Короткая ссылка на страницу курса: ссылка
- Родственный курс на ФПМИ МФТИ: ссылка
Правила сдачи курса
Правила выставления итоговой оценки
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
, где
— оценка за дз, — оценка за экзамен в 10-ти балльной шкале, — математическое округление.
Есть дополнительные условия для получения каждой из оценок:
- удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
- хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
- отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Программа экзамена: ссылка
Программа курса
№ | Дата | Тема | Материалы | Д/З |
---|---|---|---|---|
1 | 07.09 | Организация курса, правила игры.
Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация . | слайды | |
2 | 14.09 | Векторные представления слов.
Count-based и prediction-based методы. Построение представлений для слов не из словаря. | слайды | дз |
3 | 21.09 | Задача разметки последовательностей (tagging).
Нейросетевые архитектуры для её решения. RNN, LSTM. Transformer. | слайды | |
4 | 28.09 | Структурированное обучение для задачи разметки.
Модель Linear-CRF, её упрощения и обобщения. Комбинирование нейросетей и CRF. | слайды | дз |
5 | 05.10 | Задача языкового моделирования.
Статистические и нейросетевые языковые модели. Семейство моделей GPT. | слайды | |
6 | 12.10 | Контекстуальные векторные представления слов.
Transfer learning в NLP. Модель BERT и её модификации. | слайды | дз |
7 | 19.10 | Машинный перевод.
Подход Sequence-to-sequence. Эвристики при авторегрессионной генерации. | слайды | дз |
8 | 02.11 | Диалоговые и вопросно-ответные системы. | слайды | |
9 | 09.11 | Синтаксический разбор и его применение в практических задачах. | слайды(1) | |
10 | 16.11 | Задача классификации текстов.
Дизайн индустриальной ML-системы. | слайды | |
11 | 30.11 | Различные приложения DL в NLP.
Информационный поиск. Рекомендательные системы. | слайды | |
12 | 07.12 | Автоматическая суммаризация текстов.
Extractive суммаризация. Abstractive суммаризация. | слайды |
Страницы прошлых лет
- Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
- Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
- Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP