Участник:Voronov
Материал из MachineLearning.
МФТИ, ФУПМ, 074
Кафедра "Интеллектуальные системы"
Направление "Интеллектуальный анализ данных"
Mailto: rdkl.hrd@gmail.com
Содержание |
Отчеты о научно-исследовательской работе
Весна 2013, 6-й семестр
Алгоритм генетического программирования для решения задачи прогнозирования
В работе исследовано автоматическое порождение прогнозирующих моделей. Предложен алгоритм для решения задачи моделирования улыбки волатильности биржевых опционов. В основе алгоритма лежат идеи алгоритмов генетического и аналитического программирования. Проведен вычислительный эксперимент; найдена модельная функция волатильности.
Публикация
Воронов C.О. Алгоритм генетического программирования для решения задачи прогнозирования // Machinelearning.ru, 2013.
Осень 2013, 7-й семестр
Распознавание текста на изображениях
В работе решается задача локализации текста на изображении. Для нахождения символов на изображении производится поиск экстремальных областей (ER). Используется классификатор, который производит отбор наиболее похожих на текст ER. Качество нахождения позиций текста оценивается по количеству правильно локализованных положений.
Публикация
Воронов С.О. Распознавание текста на изображениях: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).
Построение обучаемого алгоритма распознавания научного контента в сети Интернет
В работе исследованы методы классификации текстовых документов на научные и ненаучные. Предложены признаки, позволяющие наилучшим образом обучить SVM-классификатор для выявления научных материалов среди текстовых документов. Кроме того, исследовано влияние параметров классификатора на количество ошибок на контроле. Написано приложение, умеющее обучаться и искать наиболее значимые признаки.
Доклад на научной конференции
Воронов С.О. Построение обучаемого алгоритма распознавания научного контента в сети Интернет // Труды 56-й научной конференции МФТИ. — 2013. — Управление и прикладная математика. Т. 1. — С. 104—105.
Аддитивно регуляризованные тематические модели
Разработана структура будущего приложения.
Весна 2014, 8-й семестр
Комбинирование тематических моделей и логистической регрессии для классификации научных документов
В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Предлагается система числовых признаков, характеризующих отличительные особенности научных текстов. Для автоматической генерации словарных признаков используется вероятностная тематическая модель классификации. Для компенсации несбалансированности выборки при формировании обучающей выборки и оценивании качества классификации предлагается перевзвешивание объектов по формуле Хансена-Гурвица. Для классификации применяется модель логистической регрессии над полученными числовыми и словарными признаками. Эксперименты на коллекции документов из сети Интернет показывают, что предложенные методы улучшают качество классификации.
Осень 2015, 9-й семестр
Полуавтоматическая генерация словарных признаков для классификации научных документов
В работе решается задача классификации несбалансированной коллекции документов на научные и ненаучные. Предложен алгоритм полуавтоматической генерации словарных признаков документов для дальнейшей классификации при помощи тематической модели. Эксперименты на коллекции документов из сети Интернет показывают, что предложенные методы улучшают качество классификации.
Конференции
Воронов C.О. Комбинирование тематических моделей и логистической регрессии для классификации научных документов // 21 конференция "Диалог" (готовится к подаче)