Математические методы анализа текстов (ВМиК МГУ) / 2017
Материал из MachineLearning.
(→Домашние задания) |
(→Экзамен) |
||
(81 промежуточная версия не показана) | |||
Строка 11: | Строка 11: | ||
* Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882. | * Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882. | ||
- | * Лектор: Виктор Китов | + | * Лектор: [[Участник:Victor Kitov|Виктор Китов]] |
* Семинаристы: Анна Потапенко, [[Участник:Mapishev|Мурат Апишев]] | * Семинаристы: Анна Потапенко, [[Участник:Mapishev|Мурат Апишев]] | ||
* Почта курса: '''nlp.msu@gmail.com'''. | * Почта курса: '''nlp.msu@gmail.com'''. | ||
Строка 17: | Строка 17: | ||
==== Правила игры ==== | ==== Правила игры ==== | ||
- | * Оценка за курс: 70 | + | * Оценка за курс: за семестровую работу можно получить до 70 баллов (без учёта призовых баллов конкурса), на экзамене - 30 баллов (10 за тройку, 20 за четвёрку и 30 за пятёрку). Итоговая оценку за курс определяется следующей шкалой: 40+ баллов = 3, 60+ баллов = 4, 80+ баллов = 5. Автоматом ставится только оценка 5. |
* Виды активностей: | * Виды активностей: | ||
** Практические работы (ориентировочно 4 задания) | ** Практические работы (ориентировочно 4 задания) | ||
Строка 24: | Строка 24: | ||
* Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов. | * Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов. | ||
* Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из [https://docs.google.com/spreadsheets/d/1oAonG1gCWCpLVOucsKfKyVsh9CHJ1Ewvwimtyt23DN0/edit?usp=sharing списка] (будет пополняться). | * Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из [https://docs.google.com/spreadsheets/d/1oAonG1gCWCpLVOucsKfKyVsh9CHJ1Ewvwimtyt23DN0/edit?usp=sharing списка] (будет пополняться). | ||
+ | |||
+ | == Экзамен == | ||
+ | |||
+ | [https://yadi.sk/i/RSITrA0u3JrShG Билеты] | ||
+ | |||
+ | [[Media:Kitov-ML-eng-18-EM_algorithm.pdf | +лекция по EM-алгоритму]] | ||
+ | |||
+ | Выставление оценок по общим баллам: | ||
+ | |||
+ | 40+ тройка | ||
+ | |||
+ | 55+ четверка | ||
+ | |||
+ | 70+ пятерка | ||
== Программа курса == | == Программа курса == | ||
Строка 37: | Строка 51: | ||
** Модель языка, N-граммы, сглаживание, концепция шумного канала | ** Модель языка, N-граммы, сглаживание, концепция шумного канала | ||
** Применение в задачах исправления опечаток и машинного перевода | ** Применение в задачах исправления опечаток и машинного перевода | ||
- | |||
* Глубокие нейронные сети в анализе текстов. | * Глубокие нейронные сети в анализе текстов. | ||
+ | * Тематические модели, дистрибутивная семантика, векторные представления слов. | ||
* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией. | * Онтологии, тезаурусы, выделение семантических связей. Работа с википедией. | ||
* Определение тональности текстов. | * Определение тональности текстов. | ||
- | |||
- | |||
===== Домашние задания ===== | ===== Домашние задания ===== | ||
- | + | '''Внимание:''' необходимо выбрать статью для разбора и написать об этом на почту курса! | |
{| class="wikitable" | {| class="wikitable" | ||
Строка 52: | Строка 64: | ||
! | ! | ||
! Дедлайн | ! Дедлайн | ||
+ | ! Баллы | ||
! Тема | ! Тема | ||
! Материалы | ! Материалы | ||
Строка 58: | Строка 71: | ||
| Лабораторная 1 | | Лабораторная 1 | ||
| 13.03.2017 (9.00 MSK) | | 13.03.2017 (9.00 MSK) | ||
+ | | 10 баллов | ||
| Определение частей речи и | | Определение частей речи и | ||
выделение именованных сущностей. | выделение именованных сущностей. | ||
Строка 65: | Строка 79: | ||
|- | |- | ||
| Лабораторная 2 | | Лабораторная 2 | ||
- | | | + | | 27.03.2017 (9.00 MSK) |
+ | | 10 баллов | ||
| Языковое моделирование и распознавание языка. | | Языковое моделирование и распознавание языка. | ||
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjSE9xX2E4TWdTQlU Задание и данные]. | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjSE9xX2E4TWdTQlU Задание и данные]. | ||
Строка 71: | Строка 86: | ||
|- | |- | ||
| Лабораторная 3 | | Лабораторная 3 | ||
- | | | + | | 10.04.2017 (9.00 MSK) |
+ | | 10 баллов + 5 бонусных | ||
| Задача выравнивания в машинном переводе. | | Задача выравнивания в машинном переводе. | ||
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjYWcxc1BOVXh0bEU Задание и данные]. | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjYWcxc1BOVXh0bEU Задание и данные]. | ||
- | | Задание творческое, | + | | Задание творческое, читайте заметки и экспериментируйте! |
- | + | ||
|- | |- | ||
+ | | Конкурс | ||
+ | | 03.04.2017 для бейзлайна, 24.04.2017 финальный (9.00 MSK) | ||
+ | | 5 за преодоление бейзлайна + 20-25-30 за призовые места. | ||
+ | | Предсказание тегов для документов. | ||
+ | | [https://kaggle.com/join/1_cmc_msu_nlp_2017 Конкурс] | ||
+ | | Смотрите материалы семинара от 20 марта. | ||
+ | |- | ||
+ | | Лабораторная 4 | ||
+ | | 08.05.2017 (9.00 MSK) | ||
+ | | 10 баллов + 5 бонусных | ||
+ | | Тематическое моделирование и сентимент-анализ. | ||
+ | | [https://drive.google.com/file/d/0ByA8hDs8nxhCMi1rSGpONHl4dW8/view?usp=sharing Задание] [https://drive.google.com/file/d/0B9G5sfFTlfxrTWJIaU9TRV9YeTA/view?usp=sharing Данные] | ||
+ | | | ||
+ | |- | ||
+ | | Разбор статьи | ||
+ | | Материалы должны отправлены за день до семинара с разбором, но не позднее 10.05.2017 (9.00 MSK) | ||
+ | | 10 за реферат + 5 за выступление (по желанию) | ||
+ | | Современные подходы в задачах NLP. | ||
+ | | [https://docs.google.com/spreadsheets/d/1oAonG1gCWCpLVOucsKfKyVsh9CHJ1Ewvwimtyt23DN0/edit?usp=sharing Распределение]. | ||
+ | | Реферат на 3-5 страниц, по которому понятно, что вы разобрались в методе и результатах. Выступление со слайдами на 10-15 минут, полезное для аудитории. | ||
|} | |} | ||
Строка 101: | Строка 136: | ||
| Морфологический анализ. Скрытая марковская модель. | | Морфологический анализ. Скрытая марковская модель. | ||
| [[Media:02-MMP-Text_mining-POS_tagging.pdf|Презентация 1]] | | [[Media:02-MMP-Text_mining-POS_tagging.pdf|Презентация 1]] | ||
- | [[Media:03-MMP-Text_mining-HMM.pdf|Презентация 2]] | + | [[Media:03-MMP-Text_mining-HMM.pdf|Презентация 2]] {{важно|— обновление 07.06.2017}} |
| [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги] | | [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги] | ||
|- | |- | ||
Строка 107: | Строка 142: | ||
| 03.03.2017 | | 03.03.2017 | ||
| Морфологический анализ. MEMM модель. | | Морфологический анализ. MEMM модель. | ||
- | | [[Media:04-MMP-Text_mining-POS_tagging_2.pdf |Презентация]] | + | | [[Media:04-MMP-Text_mining-POS_tagging_2.pdf |Презентация]] {{важно|— обновление 07.06.2017}} |
| [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги] | | [https://web.stanford.edu/~jurafsky/slp3/10.pdf Глава книги] | ||
|- | |- | ||
Строка 113: | Строка 148: | ||
| 10.03.2017 | | 10.03.2017 | ||
| Классификация текстов и отбор признаков. | | Классификация текстов и отбор признаков. | ||
- | | [[Media:05-MMP-Text mining-Text classification.pdf |Презентация]] | + | | [[Media:05-MMP-Text mining-Text classification.pdf |Презентация]] {{важно|— обновление 07.06.2017}} |
+ | | | ||
+ | |- | ||
+ | | Лекция 5 | ||
+ | | 17.03.2017 | ||
+ | | Снижение размерности. | ||
+ | | [[Media:06-MMP-Text mining-Dimensionality_reduction_in_text_mining.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
| | | | ||
+ | | | ||
+ | | Расстояние Левенштейна. | ||
+ | | [[Media:07-MMP-Text mining-Minimum_edit_distance.pdf |Презентация]] | ||
+ | | [https://web.stanford.edu/~jurafsky/slp3/2.pdf Глава книги] | ||
+ | |- | ||
+ | | | ||
+ | | | ||
+ | | Синтаксический разбор. | ||
+ | | [[Media:08-MMP-Text mining-Syntax_parsing.pdf |Презентация]] | ||
+ | | [https://web.stanford.edu/~jurafsky/slp3/12.pdf Глава книги] | ||
+ | |- | ||
+ | | Лекция 6 | ||
+ | | 24.03.2017 | ||
+ | | Исправление опечаток, N-граммы. | ||
+ | | [[Media:09-MMP-Text_mining-Spell_checking.pdf |Презентация]] | ||
+ | | [https://web.stanford.edu/~jurafsky/slp3/5.pdf Глава книги] | ||
+ | [https://web.stanford.edu/~jurafsky/slp3/4.pdf Глава книги] | ||
+ | |- | ||
+ | | Лекция 7 | ||
+ | | 31.03.2017 | ||
+ | | Вероятностное тематическое моделирование, часть 1. | ||
+ | | [[Media:10-MMP-Text_mining-Topic_modeling.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | Лекция 8 | ||
+ | | 07.04.2017 | ||
+ | | Вероятностное тематическое моделирование, часть 2. | ||
+ | | [[Media:11-MMP-Text_mining-Topic_modeling.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | Лекция 9 | ||
+ | | 14.04.2017 | ||
+ | | Работа со смыслами слов. | ||
+ | | [[Media:12-MMP-Text_mining-Word_senses_computing.pdf |Презентация]] | ||
+ | | [https://web.stanford.edu/~jurafsky/slp3/17.pdf Глава книги] | ||
+ | |- | ||
+ | | Лекция 10 | ||
+ | | 21.04.2017 | ||
+ | | Кластеризация. | ||
+ | | [[Media:13-MMP-Text_mining-Clustering.pdf |Презентация]] | ||
+ | | [http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/attachments/luxburg06_TR_v2_4139%5b1%5d.pdf Статья] | ||
+ | |- | ||
+ | | Лекция 11 | ||
+ | | 28.04.2017 | ||
+ | | Анализ субъективности. | ||
+ | | [[Media:14-MMP-Text_mining-Subjectivity_analysis.pdf |Презентация]] | ||
+ | | [https://web.stanford.edu/~jurafsky/slp3/18.pdf Глава книги] | ||
+ | |- | ||
+ | | Лекция 12 | ||
+ | | 05.05.2017 | ||
+ | | Моделирование упорядоченных классов. | ||
+ | | [[Media:15-MMP-Text_mining-Sequence_labelling._Ordered_outcomes_classification.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | | ||
+ | | | ||
+ | | Нелинейное снижение размерности. | ||
+ | | [[Media:16-MMP-Text_mining-Nonlinear_dimensionality_reduction.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | Лекция 13 | ||
+ | | 12.05.2017 | ||
+ | | Извлечение информации. | ||
+ | | [[Media:17-MMP-Text_mining-Information_extraction.pdf |Презентация]] | ||
+ | | [https://web.stanford.edu/~jurafsky/slp3/21.pdf Глава книги] | ||
+ | |- | ||
+ | | | ||
+ | | | ||
+ | | Оценка качества кластеризации. | ||
+ | | [[Media:18-MMP-Text_mining-Clustering_evaluation.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | | ||
+ | | | ||
+ | | Отбор признаков для кластеризации. | ||
+ | | [[Media:19-MMP-Text_mining-Feature selection_for_clustering.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | Лекция 14 | ||
+ | | 19.05.2017 | ||
+ | | Методы автоматических ответов на вопросы. | ||
+ | | [[Media:20-MMP-Text_mining-Question_answering.pdf |Презентация]] | ||
+ | | | ||
+ | |- | ||
|} | |} | ||
Строка 129: | Строка 256: | ||
| Семинар 1 | | Семинар 1 | ||
| 13.02.2017 | | 13.02.2017 | ||
- | | Правила курса, предобработка и векторизация текстов, | + | | Правила курса, предобработка и векторизация текстов, применение. |
- | применение | + | |
| [[Медиа:Seminar_1.pdf| Презентация]] | | [[Медиа:Seminar_1.pdf| Презентация]] | ||
[https://drive.google.com/open?id=0B2cCJQ2_aOwjSDl2WUsxclNVYmM Ipython ноутбук] | [https://drive.google.com/open?id=0B2cCJQ2_aOwjSDl2WUsxclNVYmM Ipython ноутбук] | ||
Строка 147: | Строка 273: | ||
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjb0oxS2tHN01leVE Материалы семинара] | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjb0oxS2tHN01leVE Материалы семинара] | ||
| | | | ||
+ | |- | ||
+ | | Семинар 4 | ||
+ | | 13.03.2017 | ||
+ | | Орг-вопросы, EM-алгоритм, задача выравнивания в машинном переводе. | ||
+ | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjWlRVbVZ0RXVTaUU Материалы семинара] | ||
+ | | | ||
+ | |- | ||
+ | | Семинар 5 | ||
+ | | 20.03.2017 | ||
+ | | Выдача конкурса: Vowpal Wabbit, Hashing Trick, Bleding/Stacking. NLP-ресурсы. | ||
+ | | [https://ld86.github.io/msu-slides/#/ Слайды] | ||
+ | | [https://github.com/ld86/msu-slides/blob/gh-pages/msu.ipynb Ноутбук] | ||
+ | |- | ||
+ | | Семинар 6 | ||
+ | | 27.03.2017 | ||
+ | | Введение в глубокие нейронные сети, RNN, LSTM, GRU. | ||
+ | | [https://drive.google.com/file/d/0B7TWwiIrcJstTVh0SEFUSFpLVDg/view?usp=sharing Слайды] | ||
+ | | | ||
+ | |- | ||
+ | | Семинар 7 | ||
+ | | 03.04.2017 | ||
+ | | Neural Conversational Models. | ||
+ | | [https://www.dropbox.com/s/fiaj79rht92hpjb/03_04_chatbots.pdf?dl=0 Слайды] | ||
+ | | | ||
+ | |- | ||
+ | | Семинар 8 | ||
+ | | 10.04.2017 | ||
+ | | Векторные представления слов и документов, доклады. | ||
+ | | [[Медиа:Word2Vec.pdf | Презентация]] | ||
+ | | | ||
+ | |- | ||
+ | | Семинар 9 | ||
+ | | 17.04.2017 | ||
+ | | Доклады. | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Семинар 10 | ||
+ | | 24.04.2017 | ||
+ | | Тематическое моделирование. Анализ тональности текстов. | ||
+ | | [[Медиа:VMK_NLP_TM.pdf | Презентация]] | ||
+ | | | ||
+ | |} | ||
+ | |||
+ | ===== Текущие результаты ===== | ||
+ | |||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Студенты | ||
+ | ! Лабораторная №1 | ||
+ | ! Лабораторная №2 | ||
+ | ! Лабораторная №3 | ||
+ | ! Лабораторная №4 | ||
+ | ! Конкурс | ||
+ | ! Реферат | ||
+ | ! Итог | ||
+ | |- | ||
+ | | Амелин Владислав | ||
+ | | 2.8 | ||
+ | | 6.0 | ||
+ | | 7.0 | ||
+ | | 7.0 (+2.0) | ||
+ | | 5.0 (+25.0) | ||
+ | | 7.0 | ||
+ | | 62 | ||
+ | |- | ||
+ | | Андрейцев Антон | ||
+ | | 8.2 | ||
+ | | 3.2 | ||
+ | | 1.0 | ||
+ | | 8.2 (-1.0) | ||
+ | | 5.0 | ||
+ | | 10.0 | ||
+ | | 35 | ||
+ | |- | ||
+ | | Викулин Всеволод | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 9.0 | ||
+ | | 10.0 (+2.0) | ||
+ | | 5.0 | ||
+ | | 10.0 (+5.0) | ||
+ | | 61 | ||
+ | |- | ||
+ | | Гетоева Аида | ||
+ | | 0.0 | ||
+ | | 5.0 | ||
+ | | 7.0 | ||
+ | | 9.0 | ||
+ | | 0.0 | ||
+ | | 10.0 | ||
+ | | 31 | ||
+ | |- | ||
+ | | Журавлёв Вадим | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 9.0 | ||
+ | | 10 (+2.0) | ||
+ | | 5.0 | ||
+ | | 9.0 | ||
+ | | 55 | ||
+ | |- | ||
+ | | Иванов Олег | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 10.0 (+2.0) | ||
+ | | 8.5 (+1.0) | ||
+ | | 5.0 | ||
+ | | 10.0 (+3.0) | ||
+ | | 60 | ||
+ | |- | ||
+ | | Камалов Руслан | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 7.0 | ||
+ | | 0.0 | ||
+ | | 5.0 | ||
+ | | 9.0 | ||
+ | | 41 | ||
+ | |- | ||
+ | | Оспанов Аят | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 8.0 | ||
+ | | 10.0 (+4.0) | ||
+ | | 5.0 | ||
+ | | 10.0 | ||
+ | | 57 | ||
+ | |- | ||
+ | | Попов Николай | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 8.0 | ||
+ | | 0.0 | ||
+ | | 5.0 | ||
+ | | 0.0 | ||
+ | | 33 | ||
+ | |- | ||
+ | | Романов Никита | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 0.0 | ||
+ | | 5.0 (+20.0) | ||
+ | | 10.0 | ||
+ | | 65 | ||
+ | |- | ||
+ | | Рысьмятова Анастасия | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 10.0 (+4.0) | ||
+ | | 0.0 | ||
+ | | 5.0 (+30.0) | ||
+ | | 10.0 (+5.0) | ||
+ | | 84 (А) | ||
+ | |- | ||
+ | | Садекова Таснима | ||
+ | | 2.5 | ||
+ | | 8.6 | ||
+ | | 9.0 | ||
+ | | 6.2 | ||
+ | | 5.0 | ||
+ | | 10.0 (+5.0) | ||
+ | | 46 | ||
+ | |- | ||
+ | | Стёпина Александра | ||
+ | | 3.1 | ||
+ | | 6.8 | ||
+ | | 9.0 | ||
+ | | 10.0 | ||
+ | | 5.0 | ||
+ | | 9.0 (+4.0) | ||
+ | | 47 | ||
+ | |- | ||
+ | | Тлеубаев Адиль | ||
+ | | 4.0 | ||
+ | | 10.0 | ||
+ | | 6.0 | ||
+ | | 10.0 (+1.0) | ||
+ | | 5.0 | ||
+ | | 8.0 (+1.0) | ||
+ | | 45 | ||
+ | |- | ||
+ | | Чиркова Надежда | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 10.0 (+5.0) | ||
+ | | 5.0 | ||
+ | | 10.0 (+5.0) | ||
+ | | 65 | ||
+ | |- | ||
+ | | Шаповалов Никита | ||
+ | | 10.0 | ||
+ | | 10.0 | ||
+ | | 0.0 | ||
+ | | 6.5 (+3.0) | ||
+ | | 5.0 | ||
+ | | 10.0 (+2.0) | ||
+ | | 47 | ||
+ | |- | ||
|} | |} | ||
Текущая версия
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
- Лектор: Виктор Китов
- Семинаристы: Анна Потапенко, Мурат Апишев
- Почта курса: nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Правила игры
- Оценка за курс: за семестровую работу можно получить до 70 баллов (без учёта призовых баллов конкурса), на экзамене - 30 баллов (10 за тройку, 20 за четвёрку и 30 за пятёрку). Итоговая оценку за курс определяется следующей шкалой: 40+ баллов = 3, 60+ баллов = 4, 80+ баллов = 5. Автоматом ставится только оценка 5.
- Виды активностей:
- Практические работы (ориентировочно 4 задания)
- Конкурс на Kaggle в рамках группы
- Разбор научной статьи в области NLP (выступление или реферат)
- Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
- Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).
Экзамен
Выставление оценок по общим баллам:
40+ тройка
55+ четверка
70+ пятерка
Программа курса
- Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения
- Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
- Синтаксический анализ
- Классификация текстов
- Вероятностные модели
- Модель языка, N-граммы, сглаживание, концепция шумного канала
- Применение в задачах исправления опечаток и машинного перевода
- Глубокие нейронные сети в анализе текстов.
- Тематические модели, дистрибутивная семантика, векторные представления слов.
- Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
- Определение тональности текстов.
Домашние задания
Внимание: необходимо выбрать статью для разбора и написать об этом на почту курса!
Дедлайн | Баллы | Тема | Материалы | Дополнительно | |
---|---|---|---|---|---|
Лабораторная 1 | 13.03.2017 (9.00 MSK) | 10 баллов | Определение частей речи и
выделение именованных сущностей. | Ipython-ноутбук с заданием. | Английский датасет для NER
можно взять из CoNLL любого года. |
Лабораторная 2 | 27.03.2017 (9.00 MSK) | 10 баллов | Языковое моделирование и распознавание языка. | Задание и данные. | |
Лабораторная 3 | 10.04.2017 (9.00 MSK) | 10 баллов + 5 бонусных | Задача выравнивания в машинном переводе. | Задание и данные. | Задание творческое, читайте заметки и экспериментируйте! |
Конкурс | 03.04.2017 для бейзлайна, 24.04.2017 финальный (9.00 MSK) | 5 за преодоление бейзлайна + 20-25-30 за призовые места. | Предсказание тегов для документов. | Конкурс | Смотрите материалы семинара от 20 марта. |
Лабораторная 4 | 08.05.2017 (9.00 MSK) | 10 баллов + 5 бонусных | Тематическое моделирование и сентимент-анализ. | Задание Данные | |
Разбор статьи | Материалы должны отправлены за день до семинара с разбором, но не позднее 10.05.2017 (9.00 MSK) | 10 за реферат + 5 за выступление (по желанию) | Современные подходы в задачах NLP. | Распределение. | Реферат на 3-5 страниц, по которому понятно, что вы разобрались в методе и результатах. Выступление со слайдами на 10-15 минут, полезное для аудитории. |
Лекции
Дата | Тема | Материалы | Дополнительно | |
---|---|---|---|---|
Лекция 1 | 10.02.2017 | Токенизация. Коллокации. Регулярные выражения. | Презентация | Глава книги |
Лекция 2 | 17.02.2017 | Морфологический анализ. Скрытая марковская модель. | Презентация 1
Презентация 2 — обновление 07.06.2017 | Глава книги |
Лекция 3 | 03.03.2017 | Морфологический анализ. MEMM модель. | Презентация — обновление 07.06.2017 | Глава книги |
Лекция 4 | 10.03.2017 | Классификация текстов и отбор признаков. | Презентация — обновление 07.06.2017 | |
Лекция 5 | 17.03.2017 | Снижение размерности. | Презентация | |
Расстояние Левенштейна. | Презентация | Глава книги | ||
Синтаксический разбор. | Презентация | Глава книги | ||
Лекция 6 | 24.03.2017 | Исправление опечаток, N-граммы. | Презентация | Глава книги |
Лекция 7 | 31.03.2017 | Вероятностное тематическое моделирование, часть 1. | Презентация | |
Лекция 8 | 07.04.2017 | Вероятностное тематическое моделирование, часть 2. | Презентация | |
Лекция 9 | 14.04.2017 | Работа со смыслами слов. | Презентация | Глава книги |
Лекция 10 | 21.04.2017 | Кластеризация. | Презентация | Статья |
Лекция 11 | 28.04.2017 | Анализ субъективности. | Презентация | Глава книги |
Лекция 12 | 05.05.2017 | Моделирование упорядоченных классов. | Презентация | |
Нелинейное снижение размерности. | Презентация | |||
Лекция 13 | 12.05.2017 | Извлечение информации. | Презентация | Глава книги |
Оценка качества кластеризации. | Презентация | |||
Отбор признаков для кластеризации. | Презентация | |||
Лекция 14 | 19.05.2017 | Методы автоматических ответов на вопросы. | Презентация |
Семинары
Дата | Тема | Материалы | Дополнительно | |
---|---|---|---|---|
Семинар 1 | 13.02.2017 | Правила курса, предобработка и векторизация текстов, применение. | Презентация | |
Семинар 2 | 20.02.2017 | Модели для разметки последовательностей, прикладные задачи. | Презентация | Хороший обзор |
Семинар 3 | 06.03.2017 | Языковое моделирование и машинный перевод. | Материалы семинара | |
Семинар 4 | 13.03.2017 | Орг-вопросы, EM-алгоритм, задача выравнивания в машинном переводе. | Материалы семинара | |
Семинар 5 | 20.03.2017 | Выдача конкурса: Vowpal Wabbit, Hashing Trick, Bleding/Stacking. NLP-ресурсы. | Слайды | Ноутбук |
Семинар 6 | 27.03.2017 | Введение в глубокие нейронные сети, RNN, LSTM, GRU. | Слайды | |
Семинар 7 | 03.04.2017 | Neural Conversational Models. | Слайды | |
Семинар 8 | 10.04.2017 | Векторные представления слов и документов, доклады. | Презентация | |
Семинар 9 | 17.04.2017 | Доклады. | ||
Семинар 10 | 24.04.2017 | Тематическое моделирование. Анализ тональности текстов. | Презентация |
Текущие результаты
Студенты | Лабораторная №1 | Лабораторная №2 | Лабораторная №3 | Лабораторная №4 | Конкурс | Реферат | Итог |
---|---|---|---|---|---|---|---|
Амелин Владислав | 2.8 | 6.0 | 7.0 | 7.0 (+2.0) | 5.0 (+25.0) | 7.0 | 62 |
Андрейцев Антон | 8.2 | 3.2 | 1.0 | 8.2 (-1.0) | 5.0 | 10.0 | 35 |
Викулин Всеволод | 10.0 | 10.0 | 9.0 | 10.0 (+2.0) | 5.0 | 10.0 (+5.0) | 61 |
Гетоева Аида | 0.0 | 5.0 | 7.0 | 9.0 | 0.0 | 10.0 | 31 |
Журавлёв Вадим | 10.0 | 10.0 | 9.0 | 10 (+2.0) | 5.0 | 9.0 | 55 |
Иванов Олег | 10.0 | 10.0 | 10.0 (+2.0) | 8.5 (+1.0) | 5.0 | 10.0 (+3.0) | 60 |
Камалов Руслан | 10.0 | 10.0 | 7.0 | 0.0 | 5.0 | 9.0 | 41 |
Оспанов Аят | 10.0 | 10.0 | 8.0 | 10.0 (+4.0) | 5.0 | 10.0 | 57 |
Попов Николай | 10.0 | 10.0 | 8.0 | 0.0 | 5.0 | 0.0 | 33 |
Романов Никита | 10.0 | 10.0 | 10.0 | 0.0 | 5.0 (+20.0) | 10.0 | 65 |
Рысьмятова Анастасия | 10.0 | 10.0 | 10.0 (+4.0) | 0.0 | 5.0 (+30.0) | 10.0 (+5.0) | 84 (А) |
Садекова Таснима | 2.5 | 8.6 | 9.0 | 6.2 | 5.0 | 10.0 (+5.0) | 46 |
Стёпина Александра | 3.1 | 6.8 | 9.0 | 10.0 | 5.0 | 9.0 (+4.0) | 47 |
Тлеубаев Адиль | 4.0 | 10.0 | 6.0 | 10.0 (+1.0) | 5.0 | 8.0 (+1.0) | 45 |
Чиркова Надежда | 10.0 | 10.0 | 10.0 | 10.0 (+5.0) | 5.0 | 10.0 (+5.0) | 65 |
Шаповалов Никита | 10.0 | 10.0 | 0.0 | 6.5 (+3.0) | 5.0 | 10.0 (+2.0) | 47 |
Материалы по курсу
Литература
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Juravsky, Manning - Video lectures on natural language processing.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn