Участник:Кулунчаков
Материал из MachineLearning.
Кулунчаков Андрей Сергеевич
МФТИ, ФУПМ, 174 группа
Кафедра "Интеллектуальные системы"
kulu-andrej@yandex.ru
Содержание |
Отчет о научно-исследовательской работе
Весна 2014, 6-й семестр
Обнаружение изоморфных структур существенно нелинейных прогностических моделей
В данной работе исследуется алгоритм поиска изоморфных подграфов для деревьев, отличный от переборного. Алгоритм позволяет разбивать вершины дерева на классы эквивалентности, индуцированные изоморфизмом поддеревьев с корнями в этих вершинах — корни изоморфных поддеревьев лежат в одном классе. Это позволяет сокращать размерность вектора параметров регрессионной модели, если представлять ее в виде ориентированного дерева и унифицировать параметры в каждой из его изоморфных веток. Также осуществляется замена подграфов дерева суперпозиции на изоморфные им и имеющие меньшую структурную сложность — это позволяет уменьшить структурную сложность всей модели. Оценивается сложность проверки изоморфности двух суперпозиций для предложенного и переборного алгоритмов. Выводится добавка к сложности алгоритма в случае выявления правил замены. По синтетическим данным и данным по биржевым опционам индуктивно порождаются регрессионные модели с помощью алгоритма MVR Composer. Показано уменьшение значения функционала качества этих моделей после упрощения. Демонстрируется неухудшение приближаемости моделью контрольной выборки. Показана вычислительная эффективность предложенного алгоритма в сравнении с исходным для эволюций с достаточной плотностью упрощаемых алгоритмом моделей. Сравнивается доля упрощаемых алгоритмом моделей в эволюции для алгоритма MVR Composer и переборного алгоритма генерирования моделей.
Публикация
Кулунчаков А.С., Стрижов В.В. Обнаружение изоморфных структур существенно нелинейных прогностических моделей // Intelligent Data Analysis, 2014 (подготовлено к подаче).
Осень 2014, 7-й семестр
Ранжирование документов с помощью структурно-простых моделей
В работе решается проблема поиска ранжирующей функции в задачах информационного поиска. Ранжирующая функция используется для оценки релевантности документа согласно поступающему текстовому запросу. Выборка содержит набор текстовых коллекций документов, которые экспертно-отранжированы согласно релевантности некоторым заданным запросам. Цель работы - получить новые ранжирующие функции, которые будут описывать эти данные статистически не менее точно, чем традиционно используемые ранжирующие функции. Предлагается искать такие функции в виде суперпозиций, порожденных заданной грамматикой. Для этого используется итеративный алгоритм направленного поиска таких суперпозиций, отличный от переборного. При этом будет показана оптимальность решения в некоторой его окрестности относительно выбранной метрики на моделях. Также с использованием метрики на данных будет показана окрестность данных, где найденное решение будет оптимальным.
Технический отчёт
Кулунчаков А.С. Ранжирование документов с помощью структурно-простых моделей, Технический отчёт // Сервер вычислительных экспериментов mvr.jmlda.org (дата обращения: 30.12.2014).
Доклад на соискание гранта
Кулунчаков А.С. Разработка программного обеспечения для увеличения релевантности выдачи документов в задаче информационного поиска // "Умник", МФТИ, осень 2014.
Публикация
Кулунчаков А.С., Стрижов В.В. Ранжирование документов с помощью структурно-простых моделей // Elsevier , 2015 (готовится к подаче).
Весна 2015, 8-й семестр
Порождение структурно простых ранжирующих функций для задач информационного поиска
В работе решается проблема поиска ранжирующей функции в задачах информационного поиска. Предлагается искать такие функции в виде суперпозиций, порожденных заданной грамматикой. Для этого используется генетический алгоритм порождения таких суперпозиций. Исследуется проблема стагнации алгоритма в локальные минимумы. Исследуется несколько метрик для определения момента попадания в локальный минимум. Рассматриваются эволюции моделей при разных регуляризаторах. Для лучших регуляризатора и метрики запускается генетический алгоритм. Модели в популяции отбираются согласно их качеству на выборке Trec7. Итоговые модели тестируются на Trec5,6,8. Полученные ранжирующие функции монотонно лучше функций низкой структурной сложности, отобранных переборным алгоритмом, как на обучающей, так и на тестовой выборке.
Бакалаврская диссертация
Кулунчаков А.С., Стрижов В.В. Порождение структурно простых ранжирующих функций для задач информационного поиска // Elsevier , 2015 (готовится перевод).