Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

(Различия между версиями)

Версия 22:52, 16 февраля 2017

Содержание

1 Контакты
2 Правила игры
3 Примерная программа
- 3.1 Лекции
- 3.2 Семинары
4 Материалы по курсу
5 Учебники
- 5.1 Питон и библиотеки
6 Инструменты для работы с текстами

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
Лектор: Виктор Китов
Семинаристы: Анна Потапенко, Мурат Апишев
Почта курса: nlp.hse@gmail.com.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Правила игры

Оценка за курс: 70% домашние работы + 30% экзамен). Точные критерии будут опубликованы позднее.
Виды активностей:
- Практические работы (ориентировочно 4 задания)
- Конкурс на Kaggle в рамках группы
- Разбор научной статьи в области NLP (выступление или реферат)
Все практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).

Примерная программа

Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения
Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
Синтаксический анализ
Классификация текстов
Вероятностные модели
- Модель языка, N-граммы, сглаживание, концепция шумного канала
- Применение в задачах исправления опечаток и машинного перевода
Тематические модели, дистрибутивная семантика, векторные представления слов.
Глубокие нейронные сети в анализе текстов.
Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
Определение тональности текстов.

Лекции

	Дата	Тема	Материалы	Дополнительно
Лекция 1	10.02.2017	Токенизация. Коллокации. Регулярные выражения.	Презентация	Глава книги
Лекция 2	17.02.2017	Морфологический анализ. Скрытая марковская модель.

Семинары

	Дата	Тема	Материалы	Дополнительно
Семинар 1	13.02.2017	Правила курса, предобработка и векторизация текстов, применение в задаче классификации.	Презентация Ipython ноутбук
Семинар 2	20.02.2017	Методы работы с последовательностями и прикладные задачи.

Материалы по курсу

Учебники

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Juravsky, Manning - Video lectures on natural language processing.

Питон и библиотеки

Инструменты для работы с текстами

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2017»

Категория: Учебные курсы

@@ Строка 44: / Строка 44: @@
 * Определение тональности текстов.
-== Материалы лекций ==
+=== Лекции ===
@@ Строка 68: / Строка 68: @@
 |}
-== Материалы семинаров ==
+=== Семинары ===
 {| class="wikitable"
@@ Строка 93: / Строка 93: @@
 |}
-= Материалы =
+== Материалы по курсу ==
 ==Учебники==
@@ Строка 103: / Строка 103: @@
 [https://www.youtube.com/playlist?list=PL6397E4B26D00A269 Juravsky, Manning - Video lectures on natural language processing.]
-== Питон и необходимые библиотеки ==
+==== Питон и библиотеки ====
 * [https://www.continuum.io/downloads Anaconda - дистрибутив питона с предустановленными научными библиотеками]
-* [http://www.nltk.org/install.html библиотека NLTK по работе с текстами]
 * [http://nbviewer.ipython.org/gist/rpmuller/5920182 A Crash Course in Python for Scientists]
 * [https://docs.scipy.org/doc/numpy-dev/user/quickstart.html Numpy]
@@ Строка 114: / Строка 113: @@
-== Библиотеки по работе с текстами ==
+== Инструменты для работы с текстами ==
-* [https://tech.yandex.ru/mystem/ Морфологический анализатор от Яндекса]
+* [https://tech.yandex.ru/mystem/ Mystem - морфологический анализатор от Яндекса]
-* [https://pythonhosted.org/pymorphy/intro.html Библиотека морфологической работы с русскими текстами PyMorphy]
+* [https://pythonhosted.org/pymorphy/intro.html PyMorphy - морфологический анализатор для русского языка]
+* [http://www.nltk.org/install.html NLTK (Natural Language Toolkit) - удобная питон-библиотка]
 * [https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами]