Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

(Различия между версиями)

Версия 20:26, 8 февраля 2018

Содержание

1 Контакты
2 Программа курса

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
Лектор: Виктор Китов
Семинарист: Мурат Апишев
Почта курса: nlp.msu@gmail.com.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Программа курса

Токенизация, коллокации, регулярные выражения, языковые модели
Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
Тематические модели.
Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
Детали обучения нейросетей: дропаут, batch normalization, RNN; задача NER.
RNN, LSTM, GRU; CNN
Вопросно-ответные системы, автоматическая суммаризация, PageRank
WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии

Литература

Stanford: Deep learning in natural language processing. Spring 2016.

Stanford: Deep learning in natural language processing. Winter 2017.

Juravsky, Manning - Video lectures on natural language processing.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Питон и библиотеки

Инструменты для работы с текстами

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%92%D0%9C%D0%B8%D0%9A_%D0%9C%D0%93%D0%A3%29_/_2018»

Категория: Учебные курсы

@@ Строка 19: / Строка 19: @@
 == Программа курса ==
-* Предварительная обработка текста
+* Токенизация, коллокации, регулярные выражения, языковые модели
-** Токенизация, лемматизация, выделение коллокаций, регулярные выражения
+* Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
-* Модели для работы с последовательностями
+* Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
-** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
+* Тематические модели.
-** Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
+* Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
-* Синтаксический анализ
+* Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
-* Классификация текстов
+* Детали обучения нейросетей: дропаут, batch normalization, RNN; задача NER.
-* Вероятностные модели
+* RNN, LSTM, GRU; CNN
-** Модель языка, N-граммы, сглаживание, концепция шумного канала
+* Вопросно-ответные системы, автоматическая суммаризация, PageRank
-** Применение в задачах исправления опечаток и машинного перевода
+* WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
-* Глубокие нейронные сети в анализе текстов.
-* Тематические модели, дистрибутивная семантика, векторные представления слов.
-* Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
-* Определение тональности текстов.
 ==== Литература ====

Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

Версия 20:26, 8 февраля 2018

Содержание

Контакты

Программа курса

Литература

Питон и библиотеки

Инструменты для работы с текстами

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты