Участник:Кулунчаков

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Весна 2014, 6-й семестр)
Текущая версия (18:16, 1 сентября 2016) (править) (отменить)
(Отчет о научно-исследовательской работе)
 
(5 промежуточных версий не показаны.)
Строка 24: Строка 24:
В работе решается проблема поиска ранжирующей функции в задачах информационного поиска. Ранжирующая функция используется для оценки релевантности документа согласно поступающему текстовому запросу. Выборка содержит набор текстовых коллекций документов, которые экспертно-отранжированы согласно релевантности некоторым заданным запросам. Цель работы - получить новые ранжирующие функции, которые будут описывать эти данные статистически не менее точно, чем традиционно используемые ранжирующие функции. Предлагается искать такие функции в виде суперпозиций, порожденных заданной грамматикой. Для этого используется итеративный алгоритм направленного поиска таких суперпозиций, отличный от переборного. При этом будет показана оптимальность решения в некоторой его окрестности относительно выбранной метрики на моделях. Также с использованием метрики на данных будет показана окрестность данных, где найденное решение будет оптимальным.
В работе решается проблема поиска ранжирующей функции в задачах информационного поиска. Ранжирующая функция используется для оценки релевантности документа согласно поступающему текстовому запросу. Выборка содержит набор текстовых коллекций документов, которые экспертно-отранжированы согласно релевантности некоторым заданным запросам. Цель работы - получить новые ранжирующие функции, которые будут описывать эти данные статистически не менее точно, чем традиционно используемые ранжирующие функции. Предлагается искать такие функции в виде суперпозиций, порожденных заданной грамматикой. Для этого используется итеративный алгоритм направленного поиска таких суперпозиций, отличный от переборного. При этом будет показана оптимальность решения в некоторой его окрестности относительно выбранной метрики на моделях. Также с использованием метрики на данных будет показана окрестность данных, где найденное решение будет оптимальным.
 +
 +
'''Технический отчёт'''
 +
 +
''Кулунчаков А.С.'' [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankinBySimpleFun.doc?format=raw Ранжирование документов с помощью структурно-простых моделей], Технический отчёт // ''Сервер вычислительных экспериментов mvr.jmlda.org'' (дата обращения: 30.12.2014).
 +
 +
'''Доклад на соискание гранта'''
 +
 +
''Кулунчаков А.С.'' Разработка программного обеспечения для увеличения релевантности выдачи документов в задаче информационного поиска // "Умник", МФТИ, осень 2014.
'''Публикация'''
'''Публикация'''
-
''Кулунчаков А.С., Стрижов В.В.'' [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankinBySimpleFun.pdf?format=raw Ранжирование документов с помощью структурно-простых моделей] // [http://www.elsevier.com/ Elsevier] , 2015 (готовится к подаче).
+
''Кулунчаков А.С., Стрижов В.В.'' [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw Ранжирование документов с помощью структурно-простых моделей] // [http://www.elsevier.com/ Elsevier] , 2015 (готовится к подаче).
 +
 
 +
 
 +
=== Весна 2015, 8-й семестр ===
 +
 
 +
'''Generation of simple structured ranking models for information retrieval'''
 +
 +
This paper develops an algorithm for generating ranking models. The models rank documents from a given collection according to their relevance to queries. The models are generated as superpositions of given primitive functions. We use a genetic algorithm to generate these superpositions. Their structural complexity is controlled by a regularizator. To designate a stagnation of generation the algorithm uses a metric on superpositions. To evaluate the quality of a model we use Mean Average Precision criterion. We compare the best generated models with respect to classical IR models and the ones generated by the exhaustive algorithm. The computational experiment is conducted with respect to samples Trec5-8.
 +
 
 +
'''Бакалаврская диссертация'''
 +
 
 +
''Kulunchakov A.S., Strijov V.V.''
 +
[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Kulunchakov2015RankinBySimpleFun/doc/translation.pdf?format=raw Generation of simple structured ranking models for information retrieval.] // [http://www.elsevier.com/ Elsevier] , 2015 (готовится перевод).
 +
 
 +
=== Осень 2015, 9-й семестр ===
 +
 
 +
'''Structural features extraction for time series classification'''
 +
 +
This paper considers the problem of time series classification. A time series can be approximated by a parametric forescasting model.
 +
We propose to classify time series through a classification of structures of the approximating models. We use a genetic algorithm to generate these models. A model is a superposition of primitive functions and is treated as a directed labeled tree. We use the structure of the trees to extract a set of structural parameters describing the model. Also we define a structural metric on directed labeled trees. This metric is used in voting classification algorithm to provide a model classification. We use the set of structural parameters and the metric to build different time series classifiers and compare them. We use physiological data to classify time series corresponding to the heart rate, the chest volume and the blood oxygen concentration. Proposed methods are compared with the approach of time series classification using parameters of an approximating model.
 +
 
 +
'''Текущая работа'''
 +
 
 +
''Kulunchakov A.S., Strijov V.V.'' [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Kulunchakov2016StructuralSpace/doc/Kulunchakov2016StructuralSpace.pdf?format=raw Structural features extraction for time series classification] //, 2015-2016 (продолжается работа).
 +
 
 +
=== Весна 2016, 10-й семестр ===
 +
 
 +
'''Extraction of structural features from time series in problems of classification and clustering'''
 +
 +
This paper investigates the problem of feature extraction for time series data. We develop a new kind of structural features and introduce an extraction procedure. These features are derived from mathematical functions, which approximate the time series. Approximating functions are superpositions of expert-given primitives and constructed by means of symbolic regression and GP. In some domains, the structure of approximating superpositions contain all necessary information about time series to perform the tasks of TS classification and clustering. Properties of the developed features are analyzed in comparison with commonly used representations of time series. We compare different representations of time series with respect to accuracy of TS classification and clustering. (We significantly improve on the results of classification machine from the last term)
 +
 
 +
'''Текущая работа'''
 +
 
 +
''Kulunchakov A.S., Strijov V.V.'' [https://www.dropbox.com/home?preview=StructuralSpace2016.pdf?format=raw Extraction of structural features from time series in problems of classification and clustering] //, 2015-2016 (продолжается работа).
 +
 
 +
'''Creation of parametric rules of rewriting of algebraic expressions in Symbolic Regression'''
 +
 +
This paper investigates the problem of bloat in Symbolic Regression. It develops a procedure to simplify superpositions generated by SR. Our approach borrows ideas of equivalent decision simplification and apply them to create parametric rules of rewriting. Except from eliminating excessive parts of superpositions, these rules refine parameter space of generated superpositions. Therefore, given generated superpositions, the procedure reduces both their structural complexity and dimensionality of their parameter spaces. Resulted parameter spaces of simplified superpositions have lesser dimensionality. We also compare two approaches to create parametric rules: exhaustive and genetic programming.
 +
 
 +
'''Текущая работа'''
 +
 
 +
''Kulunchakov A.S., Strijov V.V.'' [https://www.dropbox.com/home?preview=RuleCreation2016.pdf?format=raw Creation of parametric rules of rewriting of algebraic expressions in Symbolic Regression] //, 2016 (продолжается работа).
 +
 
 +
'''Creation of delay-operators for multiscale forecasting by means of symbolic regression'''
 +
 +
This paper investigates the problem of multiscaling in the task of time series forecasting. Instead of using resampling procedures, we introduce a definition of delay-operators, which represents continuous correlation functions between corresponding time series and the response variable. Given a primitive set of mathematical function, these operators are constructed as their superpositions. Once the expressions of the operators are found, they are used to weight delayed values of time series. Obtained values act as features for linear and nonlinear forecasting models.
 +
 
 +
'''Текущая работа'''
 +
 
 +
''Kulunchakov A.S., Strijov V.V.'' [https://www.dropbox.com/home?preview=MultiscaleForecast2016.pdf?format=raw Creation of delay-operators for multiscale forecasting by means of symbolic regression] //, 2016 (продолжается работа).

Текущая версия

Кулунчаков Андрей Сергеевич

МФТИ, ФУПМ, 174 группа

Кафедра "Интеллектуальные системы"

kulu-andrej@yandex.ru

Содержание

Отчет о научно-исследовательской работе

Весна 2014, 6-й семестр

Обнаружение изоморфных структур существенно нелинейных прогностических моделей

В данной работе исследуется алгоритм поиска изоморфных подграфов для деревьев, отличный от переборного. Алгоритм позволяет разбивать вершины дерева на классы эквивалентности, индуцированные изоморфизмом поддеревьев с корнями в этих вершинах — корни изоморфных поддеревьев лежат в одном классе. Это позволяет сокращать размерность вектора параметров регрессионной модели, если представлять ее в виде ориентированного дерева и унифицировать параметры в каждой из его изоморфных веток. Также осуществляется замена подграфов дерева суперпозиции на изоморфные им и имеющие меньшую структурную сложность — это позволяет уменьшить структурную сложность всей модели. Оценивается сложность проверки изоморфности двух суперпозиций для предложенного и переборного алгоритмов. Выводится добавка к сложности алгоритма в случае выявления правил замены. По синтетическим данным и данным по биржевым опционам индуктивно порождаются регрессионные модели с помощью алгоритма MVR Composer. Показано уменьшение значения функционала качества этих моделей после упрощения. Демонстрируется неухудшение приближаемости моделью контрольной выборки. Показана вычислительная эффективность предложенного алгоритма в сравнении с исходным для эволюций с достаточной плотностью упрощаемых алгоритмом моделей. Сравнивается доля упрощаемых алгоритмом моделей в эволюции для алгоритма MVR Composer и переборного алгоритма генерирования моделей.

Публикация

Кулунчаков А.С., Стрижов В.В. Обнаружение изоморфных структур существенно нелинейных прогностических моделей // Intelligent Data Analysis, 2014 (подготовлено к подаче).

Осень 2014, 7-й семестр

Ранжирование документов с помощью структурно-простых моделей

В работе решается проблема поиска ранжирующей функции в задачах информационного поиска. Ранжирующая функция используется для оценки релевантности документа согласно поступающему текстовому запросу. Выборка содержит набор текстовых коллекций документов, которые экспертно-отранжированы согласно релевантности некоторым заданным запросам. Цель работы - получить новые ранжирующие функции, которые будут описывать эти данные статистически не менее точно, чем традиционно используемые ранжирующие функции. Предлагается искать такие функции в виде суперпозиций, порожденных заданной грамматикой. Для этого используется итеративный алгоритм направленного поиска таких суперпозиций, отличный от переборного. При этом будет показана оптимальность решения в некоторой его окрестности относительно выбранной метрики на моделях. Также с использованием метрики на данных будет показана окрестность данных, где найденное решение будет оптимальным.

Технический отчёт

Кулунчаков А.С. Ранжирование документов с помощью структурно-простых моделей, Технический отчёт // Сервер вычислительных экспериментов mvr.jmlda.org (дата обращения: 30.12.2014).

Доклад на соискание гранта

Кулунчаков А.С. Разработка программного обеспечения для увеличения релевантности выдачи документов в задаче информационного поиска // "Умник", МФТИ, осень 2014.

Публикация

Кулунчаков А.С., Стрижов В.В. Ранжирование документов с помощью структурно-простых моделей // Elsevier , 2015 (готовится к подаче).


Весна 2015, 8-й семестр

Generation of simple structured ranking models for information retrieval

This paper develops an algorithm for generating ranking models. The models rank documents from a given collection according to their relevance to queries. The models are generated as superpositions of given primitive functions. We use a genetic algorithm to generate these superpositions. Their structural complexity is controlled by a regularizator. To designate a stagnation of generation the algorithm uses a metric on superpositions. To evaluate the quality of a model we use Mean Average Precision criterion. We compare the best generated models with respect to classical IR models and the ones generated by the exhaustive algorithm. The computational experiment is conducted with respect to samples Trec5-8.

Бакалаврская диссертация

Kulunchakov A.S., Strijov V.V. Generation of simple structured ranking models for information retrieval. // Elsevier , 2015 (готовится перевод).

Осень 2015, 9-й семестр

Structural features extraction for time series classification

This paper considers the problem of time series classification. A time series can be approximated by a parametric forescasting model. We propose to classify time series through a classification of structures of the approximating models. We use a genetic algorithm to generate these models. A model is a superposition of primitive functions and is treated as a directed labeled tree. We use the structure of the trees to extract a set of structural parameters describing the model. Also we define a structural metric on directed labeled trees. This metric is used in voting classification algorithm to provide a model classification. We use the set of structural parameters and the metric to build different time series classifiers and compare them. We use physiological data to classify time series corresponding to the heart rate, the chest volume and the blood oxygen concentration. Proposed methods are compared with the approach of time series classification using parameters of an approximating model.

Текущая работа

Kulunchakov A.S., Strijov V.V. Structural features extraction for time series classification //, 2015-2016 (продолжается работа).

Весна 2016, 10-й семестр

Extraction of structural features from time series in problems of classification and clustering

This paper investigates the problem of feature extraction for time series data. We develop a new kind of structural features and introduce an extraction procedure. These features are derived from mathematical functions, which approximate the time series. Approximating functions are superpositions of expert-given primitives and constructed by means of symbolic regression and GP. In some domains, the structure of approximating superpositions contain all necessary information about time series to perform the tasks of TS classification and clustering. Properties of the developed features are analyzed in comparison with commonly used representations of time series. We compare different representations of time series with respect to accuracy of TS classification and clustering. (We significantly improve on the results of classification machine from the last term)

Текущая работа

Kulunchakov A.S., Strijov V.V. Extraction of structural features from time series in problems of classification and clustering //, 2015-2016 (продолжается работа).

Creation of parametric rules of rewriting of algebraic expressions in Symbolic Regression

This paper investigates the problem of bloat in Symbolic Regression. It develops a procedure to simplify superpositions generated by SR. Our approach borrows ideas of equivalent decision simplification and apply them to create parametric rules of rewriting. Except from eliminating excessive parts of superpositions, these rules refine parameter space of generated superpositions. Therefore, given generated superpositions, the procedure reduces both their structural complexity and dimensionality of their parameter spaces. Resulted parameter spaces of simplified superpositions have lesser dimensionality. We also compare two approaches to create parametric rules: exhaustive and genetic programming.

Текущая работа

Kulunchakov A.S., Strijov V.V. Creation of parametric rules of rewriting of algebraic expressions in Symbolic Regression //, 2016 (продолжается работа).

Creation of delay-operators for multiscale forecasting by means of symbolic regression

This paper investigates the problem of multiscaling in the task of time series forecasting. Instead of using resampling procedures, we introduce a definition of delay-operators, which represents continuous correlation functions between corresponding time series and the response variable. Given a primitive set of mathematical function, these operators are constructed as their superpositions. Once the expressions of the operators are found, they are used to weight delayed values of time series. Obtained values act as features for linear and nonlinear forecasting models.

Текущая работа

Kulunchakov A.S., Strijov V.V. Creation of delay-operators for multiscale forecasting by means of symbolic regression //, 2016 (продолжается работа).

Личные инструменты