Математические методы анализа текстов (ВМиК МГУ) / 2018
Материал из MachineLearning.
(→Семинары) |
(→Результаты проверки) |
||
Строка 113: | Строка 113: | ||
! Лабораторная № 3 | ! Лабораторная № 3 | ||
! Лабораторная № 4 | ! Лабораторная № 4 | ||
+ | ! Доклад + выступление | ||
! Итог | ! Итог | ||
|- | |- | ||
Строка 120: | Строка 121: | ||
| | | | ||
| | | | ||
+ | | | ||
| | | | ||
|- | |- | ||
| Белобородов Дмитрий | | Белобородов Дмитрий | ||
| 9 | | 9 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 131: | Строка 134: | ||
| Бобров Евгений | | Бобров Евгений | ||
| 7 | | 7 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 138: | Строка 142: | ||
| Бобров Роман | | Бобров Роман | ||
| 4.5 | | 4.5 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 145: | Строка 150: | ||
| Гарипов Тимур | | Гарипов Тимур | ||
| 8 | | 8 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 152: | Строка 158: | ||
| Драпак Степан | | Драпак Степан | ||
| 8 | | 8 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 159: | Строка 166: | ||
| Каюмов Эмиль | | Каюмов Эмиль | ||
| 7.8 | | 7.8 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 166: | Строка 174: | ||
| Коваленко Павел | | Коваленко Павел | ||
| 6.5 | | 6.5 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 173: | Строка 182: | ||
| Лунин Дмитрий | | Лунин Дмитрий | ||
| 5.4 | | 5.4 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 180: | Строка 190: | ||
| Николаев Владимир | | Николаев Владимир | ||
| 4 | | 4 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 187: | Строка 198: | ||
| Пиджакова Анна | | Пиджакова Анна | ||
| 4.5 | | 4.5 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 194: | Строка 206: | ||
| Полыковский Даниил | | Полыковский Даниил | ||
| 8 | | 8 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 202: | Строка 215: | ||
| 9 | | 9 | ||
| | | | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 210: | Строка 224: | ||
| | | | ||
| | | | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 216: | Строка 231: | ||
| 2.5 | | 2.5 | ||
| | | | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 222: | Строка 238: | ||
| Ходырева Виктория | | Ходырева Виктория | ||
| 8 | | 8 | ||
+ | | | ||
| | | | ||
| | | | ||
Строка 230: | Строка 247: | ||
| 8 | | 8 | ||
| | | | ||
+ | | | ||
| | | | ||
| | | |
Версия 12:11, 30 марта 2018
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
- Лектор: Виктор Китов
- Семинарист: Мурат Апишев
- Почта курса (семинары, задания): nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Программа курса
- Токенизация, коллокации, регулярные выражения, языковые модели
- Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
- Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
- Тематические модели.
- Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
- Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
- Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
- RNN, LSTM, GRU; CNN
- Вопросно-ответные системы, автоматическая суммаризация, PageRank
- WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
Лекции
Токенизация, коллокации, регулярные выражения.
Скрытая марковская модель для дискретных признаков.
Семинары
Дата | Тема | Материалы | ||
---|---|---|---|---|
Семинар 1 | 9.02.2018 | Правила курса, получение данных, предобработка текста, извлечение коллокаций. | Слайды | |
Семинар 2 | 17.02.2018 | Языковые модели, статистический машинный перевод, задача выравнивания. | Слайды | |
Семинар 3 | 12.03.2018 | Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности. | Слайды | |
Семинар 4 | 23.03.2018 | Тематическое моделирование. | Слайды | |
Семинар 5 | 30.03.2018 | Векторные представления слов + доклады | Слайды |
Задания
Дедлайн | Баллы | Тема | Материалы | |
---|---|---|---|---|
Лабораторная 1 | 21:00 8 марта 2018 | 10 баллов | Языковое моделирование и распознавание языка. | Ipython-ноутбук с заданием + данные. |
Лабораторная 2 | 21:00 29 марта 2018 | 10 баллов | Определение частей речи и
выделение именованных сущностей. | Ipython-ноутбук с заданием. |
Результаты проверки
Студенты | Лабораторная № 1 | Лабораторная № 2 | Лабораторная № 3 | Лабораторная № 4 | Доклад + выступление | Итог |
---|---|---|---|---|---|---|
Амир Мирас | 6.5 | |||||
Белобородов Дмитрий | 9 | |||||
Бобров Евгений | 7 | |||||
Бобров Роман | 4.5 | |||||
Гарипов Тимур | 8 | |||||
Драпак Степан | 8 | |||||
Каюмов Эмиль | 7.8 | |||||
Коваленко Павел | 6.5 | |||||
Лунин Дмитрий | 5.4 | |||||
Николаев Владимир | 4 | |||||
Пиджакова Анна | 4.5 | |||||
Полыковский Даниил | 8 | |||||
Попов Артём | 9 | |||||
Таскынов Ануар | 5 | |||||
Трубицын Юрий | 2.5 | |||||
Ходырева Виктория | 8 | |||||
Шолохова Татьяна | 8 |
Литература
Stanford: Deep learning in natural language processing. Spring 2016.
Stanford: Deep learning in natural language processing. Winter 2017.
Juravsky, Manning - Video lectures on natural language processing.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn