Методы автоматической обработки текстов (курс лекций, В.В.Китов)/2016
Материал из MachineLearning.
(→Питон и необходимые библиотеки) |
|||
Строка 24: | Строка 24: | ||
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009. | Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009. | ||
+ | |||
+ | |||
= Питон и необходимые библиотеки = | = Питон и необходимые библиотеки = | ||
Строка 35: | Строка 37: | ||
* [http://scikit-learn.org/stable/tutorial/basic/tutorial.html Scikit-learn] | * [http://scikit-learn.org/stable/tutorial/basic/tutorial.html Scikit-learn] | ||
- | |||
- | + | ||
+ | = Дополнительные библиотеки = | ||
[https://tech.yandex.ru/mystem/ Морфологический анализатор от Яндекса] | [https://tech.yandex.ru/mystem/ Морфологический анализатор от Яндекса] | ||
+ | |||
+ | [https://pythonhosted.org/pymorphy/intro.html Библиотека морфологической работы с русскими текстами PyMorphy] | ||
[https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами] | [https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами] | ||
+ | |||
Версия 14:16, 10 марта 2016
Содержание |
Описание
В спецкурсе "Методы автоматической обработки текстов" рассматриваются практические задачи работы с текстами используя язык программирования Python, математические библиотеки и библиотеки по работе с текстами NLTK, а также другие средства, нацеленные на работу с русским языком. Целью спецкурса является познакомить слушателей с основными задачами по работе с текстами и дать навыки практической работы.
Курс длится в течение весеннего семестра 2016 года. От студентов предполагается знание языка Python с научными библиотеками numpy, scipy, matplotlib, pandas, а также знакомство с основами статистики и основами машинного обучения.
Оценивание
Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:
- лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
- построение классификатора текстов по темам, авторам, жанрам и т.д.
- эмоциональный анализ отзывов
- извлечение тем из коллекции текстов
- автоматическая суммаризация текстов
- извлечение объектов определенного типа (персоны, географические названия и др.) из текста и определение отношений между ними
и другие темы, которые использовали бы методы, изучаемые на занятиях, и имеющие элементы научной новизны. Работа выполняется командой из 1-3х человек.
Материалы
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Питон и необходимые библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- библиотека NLTK по работе с текстами
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn
Дополнительные библиотеки
Морфологический анализатор от Яндекса
Библиотека морфологической работы с русскими текстами PyMorphy
Каталог утилит для работы с русскими и английскими текстами
Интересные ссылки
Национальный корпус русского языка - всевозможные коллекции русских текстов с разметкой
Генератор случайных текстов по заданной тематике
Вопросно-ответная система WolframAlpha
Каталог старых газет на русском
Каталог старых газет от Google