Методы автоматической обработки текстов (курс лекций, В.В.Китов)/2016

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 8: Строка 8:
==Оценивание==
==Оценивание==
 +
Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:
Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:
* лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
* лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
Строка 25: Строка 26:
* [http://pandas.pydata.org/pandas-docs/stable/10min.html Pandas]
* [http://pandas.pydata.org/pandas-docs/stable/10min.html Pandas]
* [http://scikit-learn.org/stable/tutorial/basic/tutorial.html Scikit-learn]
* [http://scikit-learn.org/stable/tutorial/basic/tutorial.html Scikit-learn]
 +
 +
= Материалы семинаров =
 +
ipynb скрипты расположены [https://github.com/Apogentus/NLP здесь]. Поскольку большинство примеров бралось из [http://www.nltk.org/book/ Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.] и [http://scikit-learn.org/stable/tutorial/index.html scikit-learn documentation], то рекомендуется обращаться к этим источникам за деталями.
= Материалы =
= Материалы =
Строка 48: Строка 52:
= Дополнительные библиотеки =
= Дополнительные библиотеки =
-
[https://tech.yandex.ru/mystem/ Морфологический анализатор от Яндекса]
+
* [https://tech.yandex.ru/mystem/ Морфологический анализатор от Яндекса]
-
 
+
* [https://pythonhosted.org/pymorphy/intro.html Библиотека морфологической работы с русскими текстами PyMorphy]
-
[https://pythonhosted.org/pymorphy/intro.html Библиотека морфологической работы с русскими текстами PyMorphy]
+
* [https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами]
-
 
+
-
[https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 Каталог утилит для работы с русскими и английскими текстами]
+

Версия 10:55, 8 апреля 2016


Содержание

Описание

В спецкурсе "Методы автоматической обработки текстов" рассматриваются практические задачи работы с текстами используя язык программирования Python, математические библиотеки и библиотеки по работе с текстами NLTK, а также другие средства, нацеленные на работу с русским языком. Целью спецкурса является познакомить слушателей с основными задачами по работе с текстами и дать навыки практической работы.

Курс длится в течение весеннего семестра 2016 года. От студентов предполагается знание языка Python с научными библиотеками numpy, scipy, matplotlib, pandas, а также знакомство с основами статистики и основами машинного обучения.

Оценивание

Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:

  • лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
  • построение классификатора текстов по темам, авторам, жанрам и т.д.
  • эмоциональный анализ отзывов
  • извлечение тем из коллекции текстов
  • автоматическая суммаризация текстов
  • извлечение объектов определенного типа (персоны, географические названия и др.) из текста и определение отношений между ними

и другие темы, которые использовали бы методы, изучаемые на занятиях, и имеющие элементы научной новизны.

Туториалы

Материалы семинаров

ipynb скрипты расположены здесь. Поскольку большинство примеров бралось из Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016. и scikit-learn documentation, то рекомендуется обращаться к этим источникам за деталями.

Материалы

WordNet, stemming, lemmatization, tips and tricks

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.

Питон и необходимые библиотеки


Дополнительные библиотеки


Интересные ссылки

Национальный корпус русского языка - всевозможные коллекции русских текстов с разметкой

Генератор случайных текстов по заданной тематике

Вопросно-ответная система WolframAlpha

Каталог старых газет на русском

Каталог старых газет от Google


Материалы занятий

Основные объекты библиотеки NLTK

Извлечение коллокаций

Онтология WordNet. Автоматическое определение частей речи.

Личные инструменты