Участник:Katrutsa
Материал из MachineLearning.
|  (→Осень 2013, 7-й семестр) |  (→2016 год) | ||
| (28 промежуточных версий не показаны.) | |||
| Строка 7: | Строка 7: | ||
| Направление "'''Интеллектуальный анализ данных'''" | Направление "'''Интеллектуальный анализ данных'''" | ||
| - | + | aleksandr.katrutsa@phystech.edu | |
| Строка 16: | Строка 16: | ||
| '''Публикация''' | '''Публикация''' | ||
| - | '' | + | ''A. M. Katrutsa, M. P. Kuznetsov, V. V. Strijov, K. V. Rudakov'' [http://svn.code.sf.net/p/mlalgorithms/code/RhoNetClustering/doc/Clustering2013/RhoNetClusteringIDA.pdf Metric concentration search procedure using reduced matrix of pairwise distances] // [http://www.iospress.nl/journal/intelligent-data-analysis/  Intelligent Data Analysis]. – 2015. – Vol. 19(5). - 1091-1108.  | 
| - | + | This paper presents a new fast clustering algorithm RhoNet, based on the metric concenration location procedure. To locate the metric concentration, the algorithm uses a reduced matrix of pairwise ranks distances. The key feature of the proposed algorithm is that it doesn’t need the exhaustive matrix of pairwise distances. This feature reduces computational complexity. It is designed to solve the protein secondary structure recognition problem. The computational experiment collects tests and to hold performance analysis and analysis of dependency for the algorithm quality and structure parameters. The algorithm is compared with k-modes and tested on different metrics and data sets. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| === Осень 2013, 7-й семестр === | === Осень 2013, 7-й семестр === | ||
| Строка 35: | Строка 26: | ||
| Требуется по данному множеству запросов и документов отранжировать документы, соответствующие одному запросу по степени релевантности. Обучающая выборка состоит из признакового описания документов, идентификатора запроса и оценки ассесора. Предлгается использовать логистическую регрессию и отбор признаков для нахождения оценок релевантности.    | Требуется по данному множеству запросов и документов отранжировать документы, соответствующие одному запросу по степени релевантности. Обучающая выборка состоит из признакового описания документов, идентификатора запроса и оценки ассесора. Предлгается использовать логистическую регрессию и отбор признаков для нахождения оценок релевантности.    | ||
| - | Публикация | + | '''Публикация''' | 
| + | |||
| + | ''А. М. Катруца'' Ранжирование поисковой выдачи: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: [http://http://193.233.212.81/Katrutsa2013PageRank/start.html mvr.jmlda.org] (дата обращения: 26.12.2013). | ||
| + | |||
| + | '''Выбор признаков в линейных регрессионных моделей при наличии мультиколлинеарных признаков''' | ||
| + | |||
| + | Рассматривается задача тестирования алгоритмов выбора признаков. Предлагается способ тестирования методов выбора признаков на синтетических данных. Алгоритмы выбора признаков сравниваются по эффективности выявления и устранения мультиколлинеарных признаков. При этом эффективность определяется различными функционалами качества. Проведена классификация видов мультиколлинеарности и взаимного расположения признаков. Будет сделан вывод об эффективности работы алгоритмов выбора признаков на данных, в которых присутствует определённый тип мультиколлинеарности или определённое взаимное расположение признаков. | ||
| + | |||
| + | '''Доклад на конференции''' | ||
| + | |||
| + | 56-ая конференция МФТИ: доклад "Алгоритм нахождения метрических сгущений с использованием редуцированной матрицы парных расстояний" | ||
| + | |||
| + | === Весна 2014, 8-й семестр === | ||
| + | |||
| + | '''Проблема мультиколлинеарности при выборе признаков в регрессионных задачах''' | ||
| + | |||
| + | В данной работе исследуется проблема мультиколлинеарности и её влияние на эффективность методов выбора признаков. Предлагается процедура тестирования методов выбора признаков и методика порождения тестовых выборок с различными типами мультиколлинеарности между признаками. Рассматриваемые методы выбора признаков тестируются на порождённых выборках. Процедура тестирования заключается в применении методов выбора признаков к выборкам с различным типом мультиколлинеарности и оценивании количества мультиколлинеарных признаков в множестве отобранных признаков. В работе приводится критерий сравнения методов выбора признаков, на котором основана процедура их тестирования. Также методы выбора признаков сравниваются согласно различным функционалам качества. Проведено сравнение методов выбора признаков в случае наличия в данных определённого типа мультиколлинеарности, и сделан вывод о качестве работы рассматриваемых методов на определённых типах данных. | ||
| + | |||
| + | '''Публикация''' | ||
| + | |||
| + | ''А. М. Катруца, В. В. Стрижов.'' Проблема мультиколлинеарности при выборе признаков в регрессионных задачах. // [http://novtex.ru/IT/ Информационные технологии]. – 2015. – № 1. – C. 8-18. – ISSN 1684-6400. | ||
| + | |||
| + | '''Доклад на конференции''' | ||
| + | |||
| + | ''A. Katrutsa'' Multicollinearity: perfomance analysis of feature selection algorithms. // [http://www.ifors2014.org 20st Conference of the International Federation of Operational Research Societies], July 13 – 18, 2014, Barcelona, Spain. | ||
| + | |||
| + | === Осень 2014, 9-й семестр === | ||
| + | |||
| + | '''Stresstest procedure for feature selection algorithms''' | ||
| + | |||
| + | This study investigates the multicollinearity problem and the performance of feature selection methods in case of datasets have multicollinear features. We propose a stresstest procedure for a set of feature selection methods. This procedure generates test data sets with various configurations of the target vector and features. A number of some multicollinear features are inserted in every configuration. A feature selection method results a set of selected features for given test data set. To compare given feature selection methods the procedure uses several quality measures. A criterion of the selected features redundancy is proposed. This criterion estimates number of multicollinear features among the selected ones. To detect multicollinearity it uses the eigensystem of the parameter covariance matrix. In computational experiments we consider the following illustrative methods: Lasso, ElasticNet, LARS, Ridge and Stepwise and determine the best one, which solve the multicollinearity problem for every considered configuration of dataset. | ||
| + | |||
| + | '''Публикация''' | ||
| + | |||
| + | ''A.M. Katrutsa V.V. Strijov Stresstest procedure for feature selection algorithms. // [http://www.journals.elsevier.com/chemometrics-and-intelligent-laboratory-systems/ Chemometrics and Intelligent Laboratory Systems]. - 2015. - № 142. — 172-183. | ||
| + | |||
| + | === 2016 год === | ||
| + | |||
| + | '''Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria''' | ||
| + | |||
| + | This paper provides a new approach to feature selection based on the concept of feature filters, so that feature selection is independent of the prediction model. Data fitting is stated as a single-objective optimization problem, where the objective function indicates the error of approximating the target vector as some function of given features. Linear dependence between features induces the multicollinearity problem and leads to instability of the model and redundancy of the feature set. This paper introduces a feature selection method based on quadratic programming. This approach takes into account the mutual dependence of the features and the target vector, and selects features according to relevance and similarity measures defined according to the specific problem. The main idea is to minimize mutual dependence and maximize approximation quality by varying a binary vector that indicates the presence of features. The selected model is less redundant and more stable. To evaluate the quality of the proposed feature selection method and compare it with others, we use several criteria to measure instability and redundancy. In our experiments, we compare the proposed approach with several other feature selection methods, and show that the quadratic programming approach gives superior results according to the criteria considered for the test and real data sets. | ||
| + | |||
| + | '''Публикация''' | ||
| - | + | ''A.M. Katrutsa V.V. Strijov Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria. // [https://www.journals.elsevier.com/expert-systems-with-applications/ Expert Systems with Applications]. - 2017. - Vol. 76. — 1-11. | |
Текущая версия
Катруца Александр Михайлович
МФТИ, ФУПМ, группа 074
Кафедра "Интеллектуальные системы"
Направление "Интеллектуальный анализ данных"
aleksandr.katrutsa@phystech.edu
| Содержание | 
Отчеты о научно-исследовательской работе
Весна 2013, 6-й семестр
Публикация
A. M. Katrutsa, M. P. Kuznetsov, V. V. Strijov, K. V. Rudakov Metric concentration search procedure using reduced matrix of pairwise distances // Intelligent Data Analysis. – 2015. – Vol. 19(5). - 1091-1108.
This paper presents a new fast clustering algorithm RhoNet, based on the metric concenration location procedure. To locate the metric concentration, the algorithm uses a reduced matrix of pairwise ranks distances. The key feature of the proposed algorithm is that it doesn’t need the exhaustive matrix of pairwise distances. This feature reduces computational complexity. It is designed to solve the protein secondary structure recognition problem. The computational experiment collects tests and to hold performance analysis and analysis of dependency for the algorithm quality and structure parameters. The algorithm is compared with k-modes and tested on different metrics and data sets.
Осень 2013, 7-й семестр
Ранжирование поисковой выдачи.
Требуется по данному множеству запросов и документов отранжировать документы, соответствующие одному запросу по степени релевантности. Обучающая выборка состоит из признакового описания документов, идентификатора запроса и оценки ассесора. Предлгается использовать логистическую регрессию и отбор признаков для нахождения оценок релевантности.
Публикация
А. М. Катруца Ранжирование поисковой выдачи: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).
Выбор признаков в линейных регрессионных моделей при наличии мультиколлинеарных признаков
Рассматривается задача тестирования алгоритмов выбора признаков. Предлагается способ тестирования методов выбора признаков на синтетических данных. Алгоритмы выбора признаков сравниваются по эффективности выявления и устранения мультиколлинеарных признаков. При этом эффективность определяется различными функционалами качества. Проведена классификация видов мультиколлинеарности и взаимного расположения признаков. Будет сделан вывод об эффективности работы алгоритмов выбора признаков на данных, в которых присутствует определённый тип мультиколлинеарности или определённое взаимное расположение признаков.
Доклад на конференции
56-ая конференция МФТИ: доклад "Алгоритм нахождения метрических сгущений с использованием редуцированной матрицы парных расстояний"
Весна 2014, 8-й семестр
Проблема мультиколлинеарности при выборе признаков в регрессионных задачах
В данной работе исследуется проблема мультиколлинеарности и её влияние на эффективность методов выбора признаков. Предлагается процедура тестирования методов выбора признаков и методика порождения тестовых выборок с различными типами мультиколлинеарности между признаками. Рассматриваемые методы выбора признаков тестируются на порождённых выборках. Процедура тестирования заключается в применении методов выбора признаков к выборкам с различным типом мультиколлинеарности и оценивании количества мультиколлинеарных признаков в множестве отобранных признаков. В работе приводится критерий сравнения методов выбора признаков, на котором основана процедура их тестирования. Также методы выбора признаков сравниваются согласно различным функционалам качества. Проведено сравнение методов выбора признаков в случае наличия в данных определённого типа мультиколлинеарности, и сделан вывод о качестве работы рассматриваемых методов на определённых типах данных.
Публикация
А. М. Катруца, В. В. Стрижов. Проблема мультиколлинеарности при выборе признаков в регрессионных задачах. // Информационные технологии. – 2015. – № 1. – C. 8-18. – ISSN 1684-6400.
Доклад на конференции
A. Katrutsa Multicollinearity: perfomance analysis of feature selection algorithms. // 20st Conference of the International Federation of Operational Research Societies, July 13 – 18, 2014, Barcelona, Spain.
Осень 2014, 9-й семестр
Stresstest procedure for feature selection algorithms
This study investigates the multicollinearity problem and the performance of feature selection methods in case of datasets have multicollinear features. We propose a stresstest procedure for a set of feature selection methods. This procedure generates test data sets with various configurations of the target vector and features. A number of some multicollinear features are inserted in every configuration. A feature selection method results a set of selected features for given test data set. To compare given feature selection methods the procedure uses several quality measures. A criterion of the selected features redundancy is proposed. This criterion estimates number of multicollinear features among the selected ones. To detect multicollinearity it uses the eigensystem of the parameter covariance matrix. In computational experiments we consider the following illustrative methods: Lasso, ElasticNet, LARS, Ridge and Stepwise and determine the best one, which solve the multicollinearity problem for every considered configuration of dataset.
Публикация
A.M. Katrutsa V.V. Strijov Stresstest procedure for feature selection algorithms. // Chemometrics and Intelligent Laboratory Systems. - 2015. - № 142. — 172-183.
2016 год
Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria
This paper provides a new approach to feature selection based on the concept of feature filters, so that feature selection is independent of the prediction model. Data fitting is stated as a single-objective optimization problem, where the objective function indicates the error of approximating the target vector as some function of given features. Linear dependence between features induces the multicollinearity problem and leads to instability of the model and redundancy of the feature set. This paper introduces a feature selection method based on quadratic programming. This approach takes into account the mutual dependence of the features and the target vector, and selects features according to relevance and similarity measures defined according to the specific problem. The main idea is to minimize mutual dependence and maximize approximation quality by varying a binary vector that indicates the presence of features. The selected model is less redundant and more stable. To evaluate the quality of the proposed feature selection method and compare it with others, we use several criteria to measure instability and redundancy. In our experiments, we compare the proposed approach with several other feature selection methods, and show that the quadratic programming approach gives superior results according to the criteria considered for the test and real data sets.
Публикация
A.M. Katrutsa V.V. Strijov Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria. // Expert Systems with Applications. - 2017. - Vol. 76. — 1-11.

