Участник:Voronov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Весна 2014, 8-й семестр)
(Весна 2014, 8-й семестр)
 
(2 промежуточные версии не показаны)
Строка 59: Строка 59:
'''Комбинирование тематических моделей и логистической регрессии для классификации научных документов'''
'''Комбинирование тематических моделей и логистической регрессии для классификации научных документов'''
-
''В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Вручную построена система признаков для обучения классификатора в случае несбалансированных классов. Предложены алгоритмы автоматической и полуавтоматической генерации признаков документов. Для полуавтоматической генерации признаков используется тематическиая модель классификации. Автоматическая генерация признаков работает на основе гибрида логистического регрессии и тематической модели. Проведен эксперимент на коллекции документов, полученных из сети Интернет, и сделан вывод о том, что полученные признаки улучшают качество классификации.''
+
''В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Предлагается система числовых признаков, характеризующих отличительные особенности научных текстов. Для автоматической генерации словарных признаков используется вероятностная тематическая модель классификации. Для компенсации несбалансированности выборки при формировании обучающей выборки и оценивании качества классификации предлагается перевзвешивание объектов по формуле Хансена-Гурвица. Для классификации применяется модель логистической регрессии над полученными числовыми и словарными признаками. Эксперименты на коллекции документов из сети Интернет показывают, что предложенные методы улучшают качество классификации.''
-
'''Публикации'''
+
== Осень 2015, 9-й семестр ==
-
Воронов C.О, Воронцов К.В. Комбинирование тематических моделей и логистической регрессии для классификации научных документов // JMLDA (подготовка к подаче)
+
'''Полуавтоматическая генерация словарных признаков для классификации научных документов'''
 +
 
 +
''В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Предложен алгоритм полуавтоматической генерации словарных признаков документов для дальнейшей классификации при помощи тематической модели. Эксперименты на коллекции документов из сети Интернет показывают, что предложенные методы улучшают качество классификации.''
 +
 
 +
'''Конференции'''
 +
 
 +
Воронов C.О. Комбинирование тематических моделей и логистической регрессии для классификации научных документов // 21 конференция "Диалог" (готовится к подаче)

Текущая версия

МФТИ, ФУПМ, 074

Кафедра "Интеллектуальные системы"

Направление "Интеллектуальный анализ данных"

Mailto: rdkl.hrd@gmail.com


Содержание

Отчеты о научно-исследовательской работе

Весна 2013, 6-й семестр

Алгоритм генетического программирования для решения задачи прогнозирования

В работе исследовано автоматическое порождение прогнозирующих моделей. Предложен алгоритм для решения задачи моделирования улыбки волатильности биржевых опционов. В основе алгоритма лежат идеи алгоритмов генетического и аналитического программирования. Проведен вычислительный эксперимент; найдена модельная функция волатильности.

Публикация

Воронов C.О. Алгоритм генетического программирования для решения задачи прогнозирования // Machinelearning.ru, 2013.

Осень 2013, 7-й семестр

Распознавание текста на изображениях

В работе решается задача локализации текста на изображении. Для нахождения символов на изображении производится поиск экстремальных областей (ER). Используется классификатор, который производит отбор наиболее похожих на текст ER. Качество нахождения позиций текста оценивается по количеству правильно локализованных положений.

Публикация

Воронов С.О. Распознавание текста на изображениях: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).

Построение обучаемого алгоритма распознавания научного контента в сети Интернет

В работе исследованы методы классификации текстовых документов на научные и ненаучные. Предложены признаки, позволяющие наилучшим образом обучить SVM-классификатор для выявления научных материалов среди текстовых документов. Кроме того, исследовано влияние параметров классификатора на количество ошибок на контроле. Написано приложение, умеющее обучаться и искать наиболее значимые признаки.

Доклад на научной конференции

Воронов С.О. Построение обучаемого алгоритма распознавания научного контента в сети Интернет // Труды 56-й научной конференции МФТИ. — 2013. — Управление и прикладная математика. Т. 1. — С. 104—105.

Аддитивно регуляризованные тематические модели

Разработана структура будущего приложения.

Весна 2014, 8-й семестр

Комбинирование тематических моделей и логистической регрессии для классификации научных документов

В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Предлагается система числовых признаков, характеризующих отличительные особенности научных текстов. Для автоматической генерации словарных признаков используется вероятностная тематическая модель классификации. Для компенсации несбалансированности выборки при формировании обучающей выборки и оценивании качества классификации предлагается перевзвешивание объектов по формуле Хансена-Гурвица. Для классификации применяется модель логистической регрессии над полученными числовыми и словарными признаками. Эксперименты на коллекции документов из сети Интернет показывают, что предложенные методы улучшают качество классификации.

Осень 2015, 9-й семестр

Полуавтоматическая генерация словарных признаков для классификации научных документов

В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Предложен алгоритм полуавтоматической генерации словарных признаков документов для дальнейшей классификации при помощи тематической модели. Эксперименты на коллекции документов из сети Интернет показывают, что предложенные методы улучшают качество классификации.

Конференции

Воронов C.О. Комбинирование тематических моделей и логистической регрессии для классификации научных документов // 21 конференция "Диалог" (готовится к подаче)

Личные инструменты