Математические методы анализа текстов (ВМиК МГУ) / 2018
Материал из MachineLearning.
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
- Лектор: Виктор Китов
- Семинарист: Мурат Апишев
- Почта курса (семинары, задания): nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Экзамен
Экзамен пройдет 13 июня в ауд. 579.
Лекции
Токенизация, коллокации, регулярные выражения.
Скрытая марковская модель для дискретных признаков.
Вероятностное тематическое моделирование, часть 1.
Вероятностное тематическое моделирование, часть 2.
Тематическая модель PLSA и вывод алгоритма обучения.
Сверточные нейросети для анализа текстов.
Применения рекуррентных нейросетей.
Извлечение информации из текста.
Ответы на вопросы, автоматическая суммаризация.
Семинары
Дата | Тема | Материалы | ||
---|---|---|---|---|
Семинар 1 | 9.02.2018 | Правила курса, получение данных, предобработка текста, извлечение коллокаций | Слайды | |
Семинар 2 | 17.02.2018 | Языковые модели, статистический машинный перевод, задача выравнивания | Слайды | |
Семинар 3 | 12.03.2018 | Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности | Слайды | |
Семинар 4 | 23.03.2018 | Тематическое моделирование | Слайды | |
Семинар 5 | 30.03.2018 | Векторные представления слов + доклады | Слайды | |
Семинар 6 | 06.04.2018 | Доклады | ||
Семинар 7 | 20.04.2018 | Информационный поиск | Слайды | |
Семинар 8 | 27.04.2018 | Глубинное обучение в обработке текстов | Слайды | |
Семинар 9 | 4.05.2018 | Доклады |
Задания
Дедлайн | Баллы | Тема | Материалы | |
---|---|---|---|---|
Лабораторная 1 | 21:00 8 марта 2018 | 10 баллов | Языковое моделирование и распознавание языка. | Ipython-ноутбук с заданием + данные. |
Лабораторная 2 | 21:00 29 марта 2018 | 10 баллов | Определение частей речи и
выделение именованных сущностей. | Ipython-ноутбук с заданием. |
Лабораторная 3 | 21:00 15 апреля 2018 | 15 баллов | Задача выравнивания в машинном переводе. | Материалы задания. |
Лабораторная 4 | 21:00 2 мая 2018 | 15 баллов | Векторные представления слов, тематические модели, анализ тональности. | Данные Формулировка задания. |
Результаты проверки
Студенты | Лабораторная № 1 | Лабораторная № 2 | Лабораторная № 3 | Лабораторная № 4 | Доклад + выступление | Итог |
---|---|---|---|---|---|---|
Амир Мирас | 8.5 | 8.3 | 9.5 | 4 | 30.3 | |
Белобородов Дмитрий | 9.5 | 10 | 17 | 14.5 | 5+5 | 61.0 |
Бобров Евгений | 7 | 6.4 | 12 | 5 | 5+5 | 40.4 |
Бобров Роман | 5 | 10.5 | 17 | 32.5 | ||
Гарипов Тимур | 9 | 10.5 | 12 | 14.5 | 5 | 52.0 |
Драпак Степан | 8.5 | 11 | 14 | 14 | 5 | 52.5 |
Каюмов Эмиль | 9.3 | 9.2 | 14 | 11 | 43.5 | |
Коваленко Павел | 8 | 10.3 | 14 | 14.5 | 5 | 51.8 |
Лунин Дмитрий | 8.4 | 8.8 | 5 | 6 | 28.2 | |
Николаев Владимир | 7.4 | 8.4 | 12 | 14.5 | 5+5 | 52.3 |
Пиджакова Анна | 5.7 | 5.3 | 7 | 4 | 22.0 | |
Полыковский Даниил | 8.5 | 9.5 | 17 | 14.5 | 5+5 | 59.5 |
Попов Артём | 9.5 | 12 | 15 | 14.5 | 5+5 | 61.0 |
Таскынов Ануар | 5.5 | 10.9 | 16 | 12.5 | 5+5 | 54.9 |
Трубицын Юрий | 3.5 | 1 | 14 | 4 | 22.5 | |
Ходырева Виктория | 9 | 5.3 | 12 | 4 | 30.3 | |
Шолохова Татьяна | 9 | 10.8 | 12 | 14.5 | 5 | 51.3 |
Оценка за курс
Оценка за курс определяется оценкой за экзамен (0,3,4 или 5) и результатами работы в семестре (от 0 до 60 баллов включительно). Оценивание производится по следующей схеме:
- 50+ баллов - автомат, при условии выполнения всех 4 лаб и написании реферата (выступление обязательным не является).
- 40-49 баллов - итоговая оценка равна оценке за экзамен плюс 1 балл
- 30-39 баллов - итоговая оценка равна оценке за экзамен
- 20-29 баллов - итоговая оценка равна оценке за экзамен минус 1 балл
- 19- баллов - недопуск к экзамену (в этом случае нужно будет дополнительно решать задания до получения суммарного числа баллов >=20)
На экзамене будут вопросы по теоретическому минимуму и по основному материалу. Незнание ответов на вопросы теоретического минимума приводит к пересдаче, количество баллов за семестровую работу при этом никак не учитывается. На самой пересдаче правила аналогичны основному экзамену.
Литература
Stanford: Deep learning in natural language processing. Spring 2016.
Stanford: Deep learning in natural language processing. Winter 2017.
Juravsky, Manning - Video lectures on natural language processing.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn