Методы автоматической обработки текстов (курс лекций, В.В.Китов)/2016

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Категория:Учебные курсы В спецкурсе "Методы автоматической обработки текстов" рассматриваются пр...)
Строка 1: Строка 1:
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
 +
 +
==Описание==
В спецкурсе "Методы автоматической обработки текстов" рассматриваются практические задачи работы с текстами используя язык программирования Python, математические библиотеки и библиотеку по работе с текстами NLTK, а также другие средства, нацеленные на работу с русским языком. Целью спецкурса является познакомить слушателей с основными задачами по работе с текстами и дать навыки практической работы.
В спецкурсе "Методы автоматической обработки текстов" рассматриваются практические задачи работы с текстами используя язык программирования Python, математические библиотеки и библиотеку по работе с текстами NLTK, а также другие средства, нацеленные на работу с русским языком. Целью спецкурса является познакомить слушателей с основными задачами по работе с текстами и дать навыки практической работы.
-
Курс длится в течение весеннего семестра 2016 года. Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:
+
Курс длится в течение весеннего семестра 2016 года. От студентов предполагается знание языка Python с научными библиотеками numpy, scipy, matplotlib, pandas, а также знакомство с основами статистики и основами машинного обучения.
 +
 
 +
 
 +
==Оценивание==
 +
Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:
* лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
* лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
* построение классификатора текстов по темам, авторам, жанрам и т.д.
* построение классификатора текстов по темам, авторам, жанрам и т.д.
Строка 9: Строка 15:
* извлечение тем из коллекции текстов
* извлечение тем из коллекции текстов
* автоматическая суммаризация текстов
* автоматическая суммаризация текстов
-
* извлечение именованных сущностей из текста и определение отношений между ними
+
* извлечение объектов определенного типа (персоны, географические названия и др.) из текста и определение отношений между ними
-
и другие темы, которые использовали бы методы, изучаемые на занятиях, и имеющие элементы научной новизны.
+
и другие темы, которые использовали бы методы, изучаемые на занятиях, и имеющие элементы научной новизны. Работа выполняется командой из 1-3х человек.

Версия 13:44, 10 марта 2016


Содержание

Описание

В спецкурсе "Методы автоматической обработки текстов" рассматриваются практические задачи работы с текстами используя язык программирования Python, математические библиотеки и библиотеку по работе с текстами NLTK, а также другие средства, нацеленные на работу с русским языком. Целью спецкурса является познакомить слушателей с основными задачами по работе с текстами и дать навыки практической работы.

Курс длится в течение весеннего семестра 2016 года. От студентов предполагается знание языка Python с научными библиотеками numpy, scipy, matplotlib, pandas, а также знакомство с основами статистики и основами машинного обучения.


Оценивание

Оценка за курс выставляется на основе выполнения практического проекта, реализующего согласованную с преподавателем задачу автоматической обработки текстов. Варианты задачи:

  • лингвистическое исследование различий диалекта языка для разного времени, разных авторов и разных источников информации
  • построение классификатора текстов по темам, авторам, жанрам и т.д.
  • эмоциональный анализ отзывов
  • извлечение тем из коллекции текстов
  • автоматическая суммаризация текстов
  • извлечение объектов определенного типа (персоны, географические названия и др.) из текста и определение отношений между ними

и другие темы, которые использовали бы методы, изучаемые на занятиях, и имеющие элементы научной новизны. Работа выполняется командой из 1-3х человек.


Материалы

Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.

Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.


Библиотеки

Библиотека морфологической работы с русскими текстами PyMorphy

Морфологический анализатор от Яндекса

Каталог утилит для работы с русскими и английскими текстами


Интересные ссылки

Генератор случайных текстов по заданной тематике

Вопросно-ответная система WolframAlpha

Каталог старых газет на русском

Каталог старых газет от Google


Материалы занятий

Основные объекты библиотеки NLTK

Извлечение коллокаций

Онтология WordNet. Автоматическое определение частей речи.

Личные инструменты