Математические методы анализа текстов (курс лекций) / осень 2019
Материал из MachineLearning.
(→Программа курса) |
(→Правила сдачи курса) |
||
(27 промежуточных версий не показаны.) | |||
Строка 9: | Строка 9: | ||
==Контакты== | ==Контакты== | ||
- | * Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], Апишев М.А., [[Участник:Arti_lehtonen|Попов А.С.]] | + | * Преподаватели курса: [[Участник:Vokov|Воронцов К.В.]], [[Участник:mapishev|Апишев М.А.]], [[Участник:Arti_lehtonen|Попов А.С.]] |
* На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30 | * На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30 | ||
Строка 29: | Строка 29: | ||
* Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов. | * Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов. | ||
- | * Правила сдачи экзамена | + | ===Правила выставления итоговой оценки=== |
+ | <tex>X_e</tex> — оценка за экзамен по 10-ти балльной шкале, <tex>X_d</tex> — суммарная оценка студента за практические задания, <tex>X_{max}</tex> — максимальная оценка за практические задания (без учёта бонусов, это 30 баллов) | ||
+ | |||
+ | * Если <tex>X_d / X_{max} \geq 1</tex> — максимальная оценка автоматом | ||
+ | * Если <tex>X_d / X_{max} < 0.125</tex> — пересдача автоматом | ||
+ | * Иначе, оценка в 10-ти балльной шкале вычисляется как <tex> X_e + round(8 X_d / X_{max} - 4.5) </tex> | ||
+ | * Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично | ||
+ | * Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса | ||
+ | |||
+ | ===Правила сдачи экзамена === | ||
+ | |||
+ | Программу экзамена можно найти [https://github.com/mmta-team/mmta_fall_2019/blob/master/exam_program.pdf здесь] | ||
+ | |||
+ | На экзамене при подготовке билета разрешается пользоваться любыми материалами. При непосредственном ответе ничем пользоваться нельзя. В билете содержится два вопроса из программы курса. Незнание ответа на любой вопрос из теоретического минимума влечёт за собой неудовлетворительную оценку. | ||
- | |||
==Программа курса== | ==Программа курса== | ||
{|class = "standard" | {|class = "standard" | ||
- | ! № !! Тема !! Материалы !! Д/З | + | ! № !! МГУ !! МФТИ !! Тема !! Материалы !! Д/З |
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 1 | | 1 | ||
+ | | 2019-09-03 | ||
+ | | 2019-09-05 | ||
| Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. | | Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. | ||
| [[media:mmta19intro.pdf|слайды]] | | [[media:mmta19intro.pdf|слайды]] | ||
Строка 44: | Строка 58: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 2 | | 2 | ||
+ | | 2019-09-03 | ||
+ | | 2019-09-11 | ||
| Предобработка данных. Простейшие модели классификации. | | Предобработка данных. Простейшие модели классификации. | ||
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды] | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/02_preprocessing_and_simple_classification/preprocessing_simple_classification.pdf слайды] | ||
Строка 50: | Строка 66: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 3 | | 3 | ||
+ | | 2019-09-10 | ||
+ | | 2019-09-18 | ||
| Векторные представления слов. | | Векторные представления слов. | ||
| [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды] | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/03_word_embeddings/word_embeddings.pdf слайды] | ||
Строка 56: | Строка 74: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 4 | | 4 | ||
- | | Задача теггинга последовательности. | + | | 2019-09-24 |
+ | | 2019-09-25 | ||
+ | | Задача теггинга последовательности. Условные случайные поля (CRF). | ||
| [[Media:mmta19crf.pdf|слайды]] | | [[Media:mmta19crf.pdf|слайды]] | ||
| | | | ||
Строка 62: | Строка 82: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 5 | | 5 | ||
+ | | 2019-10-01 | ||
+ | | 2019-10-02 | ||
| Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. | | Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. | ||
- | | | + | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/05_rnn_tagging/rnn_tagging.pdf слайды] |
- | | | + | | [https://github.com/mmta-team/mmta_fall_2019/tree/master/05_rnn_tagging/homework практическое задание 2] |
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 6 | | 6 | ||
+ | | 2019-10-08 | ||
+ | | 2019-10-09 | ||
| Языковое моделирование. Генерация текста на естественном языке. | | Языковое моделирование. Генерация текста на естественном языке. | ||
- | | | + | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/06_language_models/lm.pdf слайды] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 7 | | 7 | ||
- | | | + | | 2019-10-15 |
- | | | + | | 2019-10-16 |
+ | | Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод. | ||
+ | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/07_machine_translation/mt_attention_transformers.pdf слайды] | ||
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 8 | | 8 | ||
- | | Глубокие архитектуры представления предложений и документов. | + | | 2019-10-22 |
- | | | + | | 2019-10-23 |
- | | | + | | Глубокие архитектуры представления предложений и документов. Перенос обучения. |
+ | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/08_transfer_learning/transfer_learning.pdf слайды] | ||
+ | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/08_transfer_learning/homework/lab_bert.ipynb практическое задание 3] | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 9 | | 9 | ||
- | | | + | | 2019-11-05 |
- | | | + | | 2019-11-06 |
+ | | Задача классификации текстов. | ||
+ | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/09_industrial_classification/industrial_classification.pdf слайды] | ||
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 10 | | 10 | ||
- | | | + | | 2019-11-05 |
- | | | + | | 2019-11-13 |
- | | | + | | Тематическое моделирование. |
+ | | [[media:mmta19tm.pdf|слайды]] | ||
+ | | [https://github.com/mmta-team/mmta_fall_2019/tree/master/10_topic_modeling/homework практическое задание 4] | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 11 | | 11 | ||
- | | | + | | 2019-11-12 |
- | | | + | | 2019-11-27 |
+ | | Синтаксический разбор и его применение в практических задачах. | ||
+ | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/11_syntax/syntax.pdf слайды] | ||
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 12 | | 12 | ||
+ | | 2019-12-10 | ||
+ | | 2019-11-20 | ||
| Сегментация и суммаризация текстов. | | Сегментация и суммаризация текстов. | ||
- | | | + | | [[media:mmta19segm-summ.pdf|слайды]] |
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 13 | | 13 | ||
- | | | + | | 2019-12-03 |
- | | | + | | 2019-12-04 |
+ | | Вопросно-ответные системы. | ||
+ | | [https://github.com/mmta-team/mmta_fall_2019/blob/master/13_chatbots_question_answering/chatbots_question_answering.pdf слайды] | ||
| | | | ||
<!-- Конец занятия --> | <!-- Конец занятия --> | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
|} | |} | ||
Версия 08:49, 4 декабря 2019
|
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Контакты
- Преподаватели курса: Воронцов К.В., Апишев М.А., Попов А.С.
- На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
- В ФИЦ ИУ РАН занятия по средам, начало в 16:10
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Короткая ссылка на страницу курса: ссылка
Правила сдачи курса
- В рамках курса предполагается четыре практических задания и экзамен.
- Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
- Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
Правила выставления итоговой оценки
— оценка за экзамен по 10-ти балльной шкале, — суммарная оценка студента за практические задания, — максимальная оценка за практические задания (без учёта бонусов, это 30 баллов)
- Если — максимальная оценка автоматом
- Если — пересдача автоматом
- Иначе, оценка в 10-ти балльной шкале вычисляется как
- Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
- Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
Правила сдачи экзамена
Программу экзамена можно найти здесь
На экзамене при подготовке билета разрешается пользоваться любыми материалами. При непосредственном ответе ничем пользоваться нельзя. В билете содержится два вопроса из программы курса. Незнание ответа на любой вопрос из теоретического минимума влечёт за собой неудовлетворительную оценку.
Программа курса
№ | МГУ | МФТИ | Тема | Материалы | Д/З |
---|---|---|---|---|---|
1 | 2019-09-03 | 2019-09-05 | Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. | слайды | |
2 | 2019-09-03 | 2019-09-11 | Предобработка данных. Простейшие модели классификации. | слайды | |
3 | 2019-09-10 | 2019-09-18 | Векторные представления слов. | слайды | практическое задание 1 |
4 | 2019-09-24 | 2019-09-25 | Задача теггинга последовательности. Условные случайные поля (CRF). | слайды | |
5 | 2019-10-01 | 2019-10-02 | Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. | слайды | практическое задание 2 |
6 | 2019-10-08 | 2019-10-09 | Языковое моделирование. Генерация текста на естественном языке. | слайды | |
7 | 2019-10-15 | 2019-10-16 | Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод. | слайды | |
8 | 2019-10-22 | 2019-10-23 | Глубокие архитектуры представления предложений и документов. Перенос обучения. | слайды | практическое задание 3 |
9 | 2019-11-05 | 2019-11-06 | Задача классификации текстов. | слайды | |
10 | 2019-11-05 | 2019-11-13 | Тематическое моделирование. | слайды | практическое задание 4 |
11 | 2019-11-12 | 2019-11-27 | Синтаксический разбор и его применение в практических задачах. | слайды | |
12 | 2019-12-10 | 2019-11-20 | Сегментация и суммаризация текстов. | слайды | |
13 | 2019-12-03 | 2019-12-04 | Вопросно-ответные системы. | слайды |
Страницы прошлых лет
2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP