Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Категория:Учебные курсы {{TOCright}} Курс посвящен методам анализа текстов на основе статистики и машин...)
(Программа курса)
Строка 19: Строка 19:
== Программа курса ==
== Программа курса ==
-
* Предварительная обработка текста
+
* Токенизация, коллокации, регулярные выражения, языковые модели
-
** Токенизация, лемматизация, выделение коллокаций, регулярные выражения
+
* Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
-
* Модели для работы с последовательностями
+
* Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
-
** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
+
* Тематические модели.
-
** Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
+
* Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
-
* Синтаксический анализ
+
* Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
-
* Классификация текстов
+
* Детали обучения нейросетей: дропаут, batch normalization, RNN; задача NER.
-
* Вероятностные модели
+
* RNN, LSTM, GRU; CNN
-
** Модель языка, N-граммы, сглаживание, концепция шумного канала
+
* Вопросно-ответные системы, автоматическая суммаризация, PageRank
-
** Применение в задачах исправления опечаток и машинного перевода
+
* WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
-
* Глубокие нейронные сети в анализе текстов.
+
-
* Тематические модели, дистрибутивная семантика, векторные представления слов.
+
-
* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
+
-
* Определение тональности текстов.
+
-
 
+
==== Литература ====
==== Литература ====

Версия 20:26, 8 февраля 2018

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинарист: Мурат Апишев
  • Почта курса: nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.


Программа курса

  • Токенизация, коллокации, регулярные выражения, языковые модели
  • Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
  • Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
  • Тематические модели.
  • Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
  • Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
  • Детали обучения нейросетей: дропаут, batch normalization, RNN; задача NER.
  • RNN, LSTM, GRU; CNN
  • Вопросно-ответные системы, автоматическая суммаризация, PageRank
  • WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии

Литература

Stanford: Deep learning in natural language processing. Spring 2016.

Stanford: Deep learning in natural language processing. Winter 2017.

Juravsky, Manning - Video lectures on natural language processing.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.


Питон и библиотеки

Инструменты для работы с текстами

Личные инструменты