Математические методы анализа текстов (ВМиК МГУ) / 2017
Материал из MachineLearning.
|
Курс посвящен методам автоматической обработки текстов, используя методы статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМиК МГУ, а также всем желающим.
Примерная программа курса (лекции)
- Токенизация. Коллокации. Регулярные выражения.
- Скрытые марковские модели.
- Определение частей речи.
- Оценка скрытых марковских моделей.
- N-граммы.
- Классификация текстов.
- Синтаксический анализ.
- Модель языка, шумный канал, задача исправления опечаток.
- Тематические модели.
- Онтологии, тезаурусы, выделение семантических связей.
- Работа с википедией.
- Определение тональности текстов.
Лекции
Токенизация. Коллокации. Регулярные выражения.
Материалы
Учебники
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Juravsky, Manning - Video lectures on natural language processing.
Питон и необходимые библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- библиотека NLTK по работе с текстами
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn