Математические методы анализа текстов (ВМиК МГУ) / 2018
Материал из MachineLearning.
(→Семинары) |
|||
Строка 95: | Строка 95: | ||
выделение именованных сущностей. | выделение именованных сущностей. | ||
| [https://yadi.sk/d/HZRejDwF3TRJkL Ipython-ноутбук с заданием]. | | [https://yadi.sk/d/HZRejDwF3TRJkL Ipython-ноутбук с заданием]. | ||
+ | |- | ||
+ | |} | ||
+ | |||
+ | ===== Результаты проверки ===== | ||
+ | |||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Студенты | ||
+ | ! Лабораторная № 1 | ||
+ | ! Лабораторная № 2 | ||
+ | ! Лабораторная № 3 | ||
+ | ! Лабораторная № 4 | ||
+ | ! Итог | ||
+ | |- | ||
+ | | Амир Мирас | ||
+ | | 6.5 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Белобородов Дмитрий | ||
+ | | 9 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Бобров Евгений | ||
+ | | 7 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Бобров Роман | ||
+ | | 4.5 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Гарипов Тимур | ||
+ | | 8 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Драпак Степан | ||
+ | | 8 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Каюмов Эмиль | ||
+ | | 7.8 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Коваленко Павел | ||
+ | | 6.5 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Лунин Дмитрий | ||
+ | | 5.4 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Николаев Владимир | ||
+ | | 4 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Пиджакова Анна | ||
+ | | 4.5 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Полыковский Даниил | ||
+ | | 8 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Попов Артём | ||
+ | | 9 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Таскынов Ануар | ||
+ | | 5 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Трубицын Юрий | ||
+ | | 2.5 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Ходырева Виктория | ||
+ | | 8 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | | Шолохова Татьяна | ||
+ | | 8 | ||
+ | | | ||
+ | | | ||
+ | | | ||
+ | | | ||
|- | |- | ||
|} | |} |
Версия 20:31, 27 марта 2018
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
- Лектор: Виктор Китов
- Семинарист: Мурат Апишев
- Почта курса (семинары, задания): nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Программа курса
- Токенизация, коллокации, регулярные выражения, языковые модели
- Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
- Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
- Тематические модели.
- Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
- Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
- Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
- RNN, LSTM, GRU; CNN
- Вопросно-ответные системы, автоматическая суммаризация, PageRank
- WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
Лекции
Токенизация, коллокации, регулярные выражения.
Скрытая марковская модель для дискретных признаков.
Семинары
Дата | Тема | Материалы | ||
---|---|---|---|---|
Семинар 1 | 9.02.2018 | Правила курса, получение данных, предобработка текста, извлечение коллокаций. | Слайды | |
Семинар 2 | 17.02.2018 | Языковые модели, статистический машинный перевод, задача выравнивания. | Слайды | |
Семинар 3 | 12.03.2018 | Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности. | Слайды | |
Семинар 4 | 23.03.2018 | Тематическое моделирование. | Слайды |
Задания
Дедлайн | Баллы | Тема | Материалы | |
---|---|---|---|---|
Лабораторная 1 | 21:00 8 марта 2018 | 10 баллов | Языковое моделирование и распознавание языка. | Ipython-ноутбук с заданием + данные. |
Лабораторная 2 | 21:00 29 марта 2018 | 10 баллов | Определение частей речи и
выделение именованных сущностей. | Ipython-ноутбук с заданием. |
Результаты проверки
Студенты | Лабораторная № 1 | Лабораторная № 2 | Лабораторная № 3 | Лабораторная № 4 | Итог |
---|---|---|---|---|---|
Амир Мирас | 6.5 | ||||
Белобородов Дмитрий | 9 | ||||
Бобров Евгений | 7 | ||||
Бобров Роман | 4.5 | ||||
Гарипов Тимур | 8 | ||||
Драпак Степан | 8 | ||||
Каюмов Эмиль | 7.8 | ||||
Коваленко Павел | 6.5 | ||||
Лунин Дмитрий | 5.4 | ||||
Николаев Владимир | 4 | ||||
Пиджакова Анна | 4.5 | ||||
Полыковский Даниил | 8 | ||||
Попов Артём | 9 | ||||
Таскынов Ануар | 5 | ||||
Трубицын Юрий | 2.5 | ||||
Ходырева Виктория | 8 | ||||
Шолохова Татьяна | 8 |
Литература
Stanford: Deep learning in natural language processing. Spring 2016.
Stanford: Deep learning in natural language processing. Winter 2017.
Juravsky, Manning - Video lectures on natural language processing.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn