Участник:Anastasiya

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Весна 2015, 14-й семестр)
м
Строка 1: Строка 1:
__NOTOC__
__NOTOC__
-
'''МФТИ, ФУПМ'''
+
Анастасия Мотренко, аспирант факультета управления и прикладной математик МФТИ
Кафедра "'''Интеллектуальные системы'''"
Кафедра "'''Интеллектуальные системы'''"
Строка 6: Строка 6:
Направление "'''Интеллектуальный анализ данных'''"
Направление "'''Интеллектуальный анализ данных'''"
-
email: anastasia.motrenko@gmail.com
+
email: anastasiya.motrenko@phystech.edu
-
== Отчет о научно-исследовательской работе ==
+
* [[Медиа: Motrenko2014CV.pdf | Список работ и проектов к лету 2014 (pdf) ]]‎
-
[[Медиа: Motrenko2014CV.pdf | Список работ и проектов к лету 2014 (pdf) ]]‎
+
-
=== Весна 2011, 6-й семестр===
+
-
'''Использование теста Грейнджера при прогнозировании временных рядов'''
+
-
''При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений). Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.''
+
== Научно-исследовательская работа ==
 +
=== Весна 2015, 14-й семестр ===
 +
'''Учет влияния экзогенных факторов при непараметрическом прогнозировании временных рядов (Combining endogenous and exogenous variables in a special case of non-parametric time series forecasting model)'''
 +
 
 +
В работе рассмотрена задача повышения качества прогнозирования временных рядов путем учета влияния экзогенных факторов и информации о реализации значений экзогенных временных рядов. Предложено улучшение алгоритма гистограммного прогнозирования, основанного на методах квантильной регрессии и свертке гистограммы временного ряда с функцией потерь. Рассмотрены методы уточнения гистограммы с помощью условных гистограмм и смеси гистограмм. Предлагаемые подходы иллюстрируются задачей о прогнозировании объемов грузовых железнодорожных перевозок.
 +
 
 +
(We address a problem of increasing quality of forecasting time series by taking into account the information about exogenous time series. We aim to improve a non-parametric forecasting algorithm that minimizes the convolution of a histogram of time series with the loss function. We propose to adjust the histogram, using mixtures of conditional histograms as a less sparse alternative to multidimensional histogram and in some cases demonstrate the decrease of loss compared to the basic forecasting algorithm. To the extent of our knowledge, such approach to combining endogenous and exogenous time series is original and has not been proposed yet. The suggested method is illustrated with the data from the Russian Railways.)
-
'''Публикация'''
 
*{{Статья
*{{Статья
-
|автор = Мотренко А.П.
+
|автор = А.П. Мотренко, К.В. Рудаков, В.В. Стрижов
-
|название = Использование теста Грейнджера при прогнозировании временных рядов
+
|название = Учет влияния экзогенных факторов при непараметрическом прогнозировании временных рядов
-
|журнал = Машинное обучение и анализ данных
+
|журнал = Вестник Московского Университета. Серия 15. Вычислительная математика и кибернетика
-
|год = 2011
+
|год = 2016
-
|номер = 1
+
-
|ISSN = 2223-3792
+
|язык = russian
|язык = russian
-
|страницы = 51-60
 
-
|url = http://mlalgorithms.svn.sourceforge.net/viewvc/mlalgorithms/JMLDA/2011no1/pdf/Motrenko2011Granger.pdf
 
}}
}}
-
=== Осень 2011, 7-й семестр===
+
=== Осень 2015, 13-й семестр ===
-
'''Многоклассовый прогноз вероятности наступления инфаркта'''
+
'''Extracting fundamental periods to segment biomedical signals'''
 +
We address the problem of segmenting nearly periodic time series into period-like segments. We introduce a definition of nearly periodic time series via triplets "basic shape, shape transformation, time scaling" that covers a wide range of time series. To split the time series into periods we select a pair of principal components of the Hankel matrix. We then cut the trajectory of the selected principal components by its symmetry axis, thus obtaining half-periods that are merged into segments. We describe a method of automatic selection of periodic pairs of principal components, corresponding to the fundamental periodicity.
-
''В работе описан алгоритм, позволяющий классифицировать четыре группы пациентов: перенесших инфаркт; больных, имеющих предрасположенность к инфаркту и здоровых пациентов двух групп. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Одной из задач работы является выбор набора маркеров, оптимального для разделения между собой соответствующих групп. Классификация осуществляется по принципу «каждый против каждого», то есть решаются задачи классификации всевозможных пар групп. В силу высокой стоимости анализа крови, объемы данных невелики, поэтому одним из результатов исследования является оценка необходимого объема выборки пациентов.''
+
We demonstrate the application of the proposed method to the problem of period extraction for accelerometric time series of human gait. We see the automatic segmentation into periods as a problem of major importance for human activity recognition problem, since it allows to obtain interpretable segments: each segment corresponding to the fundamental period can be seen as an ultimate entity of gait.
 +
 
 +
The method we propose is more general compared to the ad-hoc methods of step detection and can be used for any nearly periodical segments. We also compare its performance to classical mathematical methods of period extraction and find it more precise.
-
'''Публикация'''
 
*{{Статья
*{{Статья
-
|автор = Мотренко А.П.
+
|автор = Motrenko A., Strijov V.
-
|название = Многоклассовый прогноз вероятности наступления инфаркта
+
|название = Extracting fundamental periods to segment biomedical signals
-
|журнал = Машинное обучение и анализ данных
+
|журнал = Journal of Biomedical and Health Informatics (resubmitted 08.02.2015)
-
|год = 2011
+
|год = 2015
 +
|язык = english
 +
}}
 +
 
 +
 
 +
 
 +
 
 +
=== Весна 2014, 12-й семестр ===
 +
''' Построение агрегированных прогнозов объемов железнодорожных грузоперевозок'''
 +
 
 +
Данное исследование посвящено проблеме построения агрегированных прогнозов объемов железнодорожных грузоперевозок. Для получения агрегированных прогнозов требуется кластеризовать временные ряды таким образом, чтобы распределение временных рядов внутри кластера совпадали. При решении задачи кластеризации требуется оценить близость между временными рядами, исходя из их эмпирических распределений. Вводится критерий принадлежности временных рядов одному распределению, основанный на расстоянии Кульбака-Лейблера между гистограммами временных рядов. Приводится теоретическое и практическое исследование предложенного критерия. Решается задача кластеризации временных рядов на основе матрицы парных расстояний между ними.
 +
* {{Статья
 +
|автор = Мотренко А. П., Стрижов B. B.
 +
|название = Построение агрегированных прогнозов объемов железнодорожных грузоперевозок
 +
|журнал = Информатика и ее применения
 +
|том = 8
|номер = 2
|номер = 2
-
|ISSN = 2223-3792
+
|год = 2014
 +
|страницы = 86-97
|язык = russian
|язык = russian
-
|страницы = 225-235
+
|url = http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014KL/doc/MotrenkoStrijov2014.pdf?format=raw
-
|url = http://mlalgorithms.svn.sourceforge.net/viewvc/mlalgorithms/JMLDA/2011no2/pdf/Motrenko2011HAPrediction.pdf
+
}}
}}
 +
'''Доклад на научной конференции'''
 +
{{Статья
 +
|автор = Motrenko A.
 +
|название = Bayesian Sample Size Estimation for Patient Classification Survey
 +
|журнал = 20th Conference of the International Federation of Operational Research Societies, July
 +
|год = 2014
 +
|язык = english
 +
|url = http://www.ifors2014.org/
 +
}}
-
=== Весна 2012, 8-й семестр ===
 
-
'''Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний'''
 
-
''В работе описан алгоритм классификации пациентов, перенесших инфаркт и имеющих предрасположенность к инфаркту. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Решается задача оценки параметров функции регрессии и выбора признаков в логистической регрессии. Предполагается, что объем данных недостаточен, поэтому в работе предлагается способ оценки необходимого объема выборки.''
+
=== Осень 2013, 11-й семестр ===
 +
''' Sample Size Determination for Logistic Regression'''
-
'''Публикации'''
+
The problem of sample size estimation is important in medical applications, especially in cases of expensive measurements of
 +
immune biomarkers. This paper describes the problem of logistic regression analysis with the sample size determination algorithms
 +
namely the methods of univariate statistics, logistics regression, cross-validation and Bayesian inference. The authors, treating the
 +
regression model parameters as a multivariate variable, propose to estimate the sample size using the distance between parameter
 +
distribution functions on cross-validated data sets. Herewith, the authors give a new contribution to data mining and statistical learning, supported by applied mathematics.
 +
* Motrenko A., Strijov V., Weber G.-W. Bayesian sample size estimation for logistic regression // Journal of Computational and Applied Mathematics, 2014, 255 — 743-752.
 +
 
 +
* {{Статья
 +
|автор = Мотренко А.П.
 +
|название = Сравнение порождающего и разделяющего подходов к классификации малых выборок
 +
|журнал = Труды 56-ой научной конференции МФТИ
 +
|год = 2013
 +
|язык = russian
 +
|страницы = 100-101
 +
|url = http://science.phystech.edu/56conf/f_6dadr1/c_6daeml
 +
}}
 +
 
 +
=== Весна 2013, 10-й семестр ===
 +
''' Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла'''
 +
 
 +
Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.
*{{Статья
*{{Статья
-
|автор = Мотренко А.П.
+
|автор = Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И.
-
|название = Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний
+
|название = Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла
|журнал = Машинное обучение и анализ данных
|журнал = Машинное обучение и анализ данных
-
|год = 2012
+
|год = 2013
-
|номер = 3
+
|номер = 5
|ISSN = 2223-3792
|ISSN = 2223-3792
|язык = russian
|язык = russian
-
|страницы = 354-366
+
|страницы = 503-517
-
|url = http://mlalgorithms.svn.sourceforge.net/viewvc/mlalgorithms/JMLDA/2012no3/pdf/Motrenko2012SampleSize.pdf
+
-
}}
+
-
*{{Статья
+
-
|автор = Мотренко А.П.
+
-
|автор2 = Стрижов В.В.
+
-
|название = Многоклассовая логистическая регрессия
+
-
|журнал = Известия ТулГУ
+
-
|год = 2012
+
-
|номер = 1
+
-
|ISSN = 2071-6176
+
-
|язык = russian
+
-
|страницы = 153-162
+
-
}}
+
}}
-
+
'''Доклады на научных конференциях'''
-
 
+
-
'''Доклад на научной конференции'''
+
*{{Статья
*{{Статья
|автор = Мотренко А.П.
|автор = Мотренко А.П.
-
|название = Многоклассовый прогноз вероятности наступления инфаркта
+
|название = Разделяющие и порождающие алгоритмы классификации малых выборок |Ломоносов-2013
-
|журнал = XIX Международная конференция студентов, аспирантов и молодых ученых «Ломоносов», апрель
+
|год = 2013
-
|год = 2012
+
|язык = russian
|язык = russian
|url = http://lomonosov-msu.ru/archive/Lomonosov_2012/structure_16_1797.htm
|url = http://lomonosov-msu.ru/archive/Lomonosov_2012/structure_16_1797.htm
Строка 91: Строка 119:
*{{Статья
*{{Статья
|автор = Мотренко А.П.
|автор = Мотренко А.П.
-
|название = Multiclass classification of cardio-vascular disease patients with sample size estimation
+
|название = Small CVD sample set classification: generative versus discriminative
-
|журнал = XXV EURO conference, июль
+
|журнал = XXVI EURO conference, июль
-
|год = 2012
+
|год = 2013
|язык = english
|язык = english
|url = http://www.euro-online.org/conf/display.php?page=slot&day=T&time=D&track=44
|url = http://www.euro-online.org/conf/display.php?page=slot&day=T&time=D&track=44
Строка 100: Строка 128:
'''Гранты'''
'''Гранты'''
*«Многоклассовая логистическая регрессия», ПГАС
*«Многоклассовая логистическая регрессия», ПГАС
 +
* РФФИ 12-07-31095
-
=== Осень 2012, 9-й семестр ===
 
 +
=== Осень 2012, 9-й семестр ===
'''Оценка плотности совместного распределения'''
'''Оценка плотности совместного распределения'''
-
В задачах классификации часто возникает ситуация, когда часть
+
В задачах классификации часто возникает ситуация, когда часть переменных распределена непрерывно, а часть - дискретно.
-
переменных распределена непрерывно, а часть~--- дискретно.
+
Например, в логистической регрессии признаки непрерывны, а переменная отклика подчиняется распределению Бернулли. В работе
-
Например, в логистической регрессии признаки непрерывны, а
+
описан способ оценки плотности совместного неоднородного распределения, включающего дискретные и непрерывные величины.
-
переменная отклика подчиняется распределению Бернулли. В работе
+
Рассмотрен случай, когда вероятностные предположения о распределении случайных величин сделать не удается. В этом случае
-
описан способ оценки плотности совместного неоднородного
+
применяются методы ядерного сглаживания. В работе также приводится их сравнение с классическими методами теории вероятностей.
-
распределения, включающего дискретные и непрерывные величины.
+
-
Рассмотрен случай, когда вероятностные предположения о
+
-
распределении случайных величин сделать не удается. В этом случае
+
-
применяются методы ядерного сглаживания. В работе также приводится
+
-
их сравнение с классическими методами теории вероятностей.
+
Эксперимент проводится на реальных и синтетических данных.
Эксперимент проводится на реальных и синтетических данных.
Строка 147: Строка 171:
* РФФИ 12-07-31095
* РФФИ 12-07-31095
-
=== Весна 2013, 10-й семестр ===
 
-
''' Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла'''
+
=== Весна 2012, 8-й семестр ===
 +
'''Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний'''
-
Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.
+
''В работе описан алгоритм классификации пациентов, перенесших инфаркт и имеющих предрасположенность к инфаркту. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Решается задача оценки параметров функции регрессии и выбора признаков в логистической регрессии. Предполагается, что объем данных недостаточен, поэтому в работе предлагается способ оценки необходимого объема выборки.''
 +
 
 +
'''Публикации'''
*{{Статья
*{{Статья
-
|автор = Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И.
+
|автор = Мотренко А.П.
-
|название = Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла
+
|название = Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний
|журнал = Машинное обучение и анализ данных
|журнал = Машинное обучение и анализ данных
-
|год = 2013
+
|год = 2012
-
|номер = 5
+
|номер = 3
|ISSN = 2223-3792
|ISSN = 2223-3792
|язык = russian
|язык = russian
-
|страницы = 503-517
+
|страницы = 354-366
 +
|url = http://mlalgorithms.svn.sourceforge.net/viewvc/mlalgorithms/JMLDA/2012no3/pdf/Motrenko2012SampleSize.pdf
 +
}}
 +
*{{Статья
 +
|автор = Мотренко А.П.
 +
|автор2 = Стрижов В.В.
 +
|название = Многоклассовая логистическая регрессия
 +
|журнал = Известия ТулГУ
 +
|год = 2012
 +
|номер = 1
 +
|ISSN = 2071-6176
 +
|язык = russian
 +
|страницы = 153-162
 +
 +
}}
-
}}
 
-
 
'''Доклад на научной конференции'''
'''Доклад на научной конференции'''
*{{Статья
*{{Статья
|автор = Мотренко А.П.
|автор = Мотренко А.П.
-
|название = Разделяющие и порождающие алгоритмы классификации малых выборок |Ломоносов-2013
+
|название = Многоклассовый прогноз вероятности наступления инфаркта
-
|год = 2013
+
|журнал = XIX Международная конференция студентов, аспирантов и молодых ученых «Ломоносов», апрель
 +
|год = 2012
|язык = russian
|язык = russian
|url = http://lomonosov-msu.ru/archive/Lomonosov_2012/structure_16_1797.htm
|url = http://lomonosov-msu.ru/archive/Lomonosov_2012/structure_16_1797.htm
Строка 175: Строка 214:
*{{Статья
*{{Статья
|автор = Мотренко А.П.
|автор = Мотренко А.П.
-
|название = Small CVD sample set classification: generative versus discriminative
+
|название = Multiclass classification of cardio-vascular disease patients with sample size estimation
-
|журнал = XXVI EURO conference, июль
+
|журнал = XXV EURO conference, июль
-
|год = 2013
+
|год = 2012
|язык = english
|язык = english
|url = http://www.euro-online.org/conf/display.php?page=slot&day=T&time=D&track=44
|url = http://www.euro-online.org/conf/display.php?page=slot&day=T&time=D&track=44
Строка 184: Строка 223:
'''Гранты'''
'''Гранты'''
*«Многоклассовая логистическая регрессия», ПГАС
*«Многоклассовая логистическая регрессия», ПГАС
-
* РФФИ 12-07-31095
 
-
=== Осень 2013, 11-й семестр ===
+
=== Осень 2011, 7-й семестр===
 +
'''Многоклассовый прогноз вероятности наступления инфаркта'''
-
''' Sample Size Determination for Logistic Regression'''
+
''В работе описан алгоритм, позволяющий классифицировать четыре группы пациентов: перенесших инфаркт; больных, имеющих предрасположенность к инфаркту и здоровых пациентов двух групп. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Одной из задач работы является выбор набора маркеров, оптимального для разделения между собой соответствующих групп. Классификация осуществляется по принципу «каждый против каждого», то есть решаются задачи классификации всевозможных пар групп. В силу высокой стоимости анализа крови, объемы данных невелики, поэтому одним из результатов исследования является оценка необходимого объема выборки пациентов.''
-
The problem of sample size estimation is important in medical applications, especially in cases of expensive measurements of
+
'''Публикация'''
-
immune biomarkers. This paper describes the problem of logistic regression analysis with the sample size determination algorithms
+
-
namely the methods of univariate statistics, logistics regression, cross-validation and Bayesian inference. The authors, treating the
+
-
regression model parameters as a multivariate variable, propose to estimate the sample size using the distance between parameter
+
-
distribution functions on cross-validated data sets. Herewith, the authors give a new contribution to data mining and statistical learning, supported by applied mathematics.
+
-
 
+
-
'''Опубликована статья:'''
+
-
 
+
-
Motrenko A., Strijov V., Weber G.-W. Bayesian sample size estimation for logistic regression // Journal of Computational and Applied Mathematics, 2014, 255 — 743-752.
+
-
 
+
-
 
+
-
'''Тезисы на научной конференции'''
+
*{{Статья
*{{Статья
-
|автор = Мотренко А.П.
+
|автор = Мотренко А.П.
-
|название = Сравнение порождающего и разделяющего подходов к классификации малых выборок
+
|название = Многоклассовый прогноз вероятности наступления инфаркта
-
|журнал = Труды 56-ой научной конференции МФТИ
+
|журнал = Машинное обучение и анализ данных
-
|год = 2013
+
|год = 2011
-
|язык = russian
+
-
|страницы = 100-101
+
-
|url = http://science.phystech.edu/56conf/f_6dadr1/c_6daeml
+
-
}}
+
-
 
+
-
=== Весна 2014, 12-й семестр ===
+
-
''' Построение агрегированных прогнозов объемов железнодорожных грузоперевозок'''
+
-
 
+
-
Данное исследование посвящено проблеме построения агрегированных прогнозов объемов железнодорожных грузоперевозок. Для получения агрегированных прогнозов требуется кластеризовать временные ряды таким образом, чтобы распределение временных рядов внутри кластера совпадали. При решении задачи кластеризации требуется оценить близость между временными рядами, исходя из их эмпирических распределений. Вводится критерий принадлежности временных рядов одному распределению, основанный на расстоянии Кульбака-Лейблера между гистограммами временных рядов. Приводится теоретическое и практическое исследование предложенного критерия. Решается задача кластеризации временных рядов на основе матрицы парных расстояний между ними.
+
-
 
+
-
'''Подготовлена статья:'''
+
-
*{{Статья
+
-
|автор = Мотренко А. П., Стрижов B. B.
+
-
|название = Построение агрегированных прогнозов объемов железнодорожных грузоперевозок
+
-
|журнал = Информатика и ее применения
+
-
|том = 8
+
|номер = 2
|номер = 2
-
|год = 2014
+
|ISSN = 2223-3792
-
|страницы = 86-97
+
|язык = russian
|язык = russian
-
|url = http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014KL/doc/MotrenkoStrijov2014.pdf?format=raw
+
|страницы = 225-235
 +
|url = http://mlalgorithms.svn.sourceforge.net/viewvc/mlalgorithms/JMLDA/2011no2/pdf/Motrenko2011HAPrediction.pdf
}}
}}
 +
=== Весна 2011, 6-й семестр===
 +
'''Использование теста Грейнджера при прогнозировании временных рядов'''
-
'''Доклад на научной конференции'''
+
''При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений). Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.''
-
*{{Статья
+
-
|автор = Motrenko A.
+
-
|название = Bayesian Sample Size Estimation for Patient Classification Survey
+
-
|журнал = 20th Conference of the International Federation of Operational Research Societies, July
+
-
|год = 2014
+
-
|язык = english
+
-
|url = http://www.ifors2014.org/
+
-
}}
+
-
 
+
-
=== Осень 2015, 13-й семестр ===
+
-
'''Extracting fundamental periods to segment biomedical signals'''
+
-
We address the problem of segmenting nearly periodic time series into period-like segments. We introduce a definition of nearly periodic time series via triplets "basic shape, shape transformation, time scaling" that covers a wide range of time series. To split the time series into periods we select a pair of principal components of the Hankel matrix. We then cut the trajectory of the selected principal components by its symmetry axis, thus obtaining half-periods that are merged into segments. We describe a method of automatic selection of periodic pairs of principal components, corresponding to the fundamental periodicity.
+
-
 
+
-
We demonstrate the application of the proposed method to the problem of period extraction for accelerometric time series of human gait. We see the automatic segmentation into periods as a problem of major importance for human activity recognition problem, since it allows to obtain interpretable segments: each segment corresponding to the fundamental period can be seen as an ultimate entity of gait.
+
-
 
+
-
The method we propose is more general compared to the ad-hoc methods of step detection and can be used for any nearly periodical segments. We also compare its performance to classical mathematical methods of period extraction and find it more precise.
+
 +
'''Публикация'''
*{{Статья
*{{Статья
-
|автор = Motrenko A., Strijov V.
+
|автор = Мотренко А.П.
-
|название = Extracting fundamental periods to segment biomedical signals
+
|название = Использование теста Грейнджера при прогнозировании временных рядов
-
|журнал = Journal of Biomedical and Health Informatics (resubmitted 08.02.2015)
+
|журнал = Машинное обучение и анализ данных
-
|год = 2015
+
|год = 2011
-
|язык = english
+
|номер = 1
-
}}
+
|ISSN = 2223-3792
-
=== Весна 2015, 14-й семестр ===
+
-
'''Учет влияния экзогенных факторов при непараметрическом прогнозировании временных рядов (Combining endogenous and exogenous variables in a special case of non-parametric time series forecasting model)'''
+
-
 
+
-
В работе рассмотрена задача повышения качества прогнозирования временных рядов путем учета влияния экзогенных факторов и информации о реализации значений экзогенных временных рядов. Предложено улучшение алгоритма гистограммного прогнозирования, основанного на методах квантильной регрессии и свертке гистограммы временного ряда с функцией потерь. Рассмотрены методы уточнения гистограммы с помощью условных гистограмм и смеси гистограмм. Предлагаемые подходы иллюстрируются задачей о прогнозировании объемов грузовых железнодорожных перевозок.
+
-
 
+
-
(We address a problem of increasing quality of forecasting time series by taking into account the information about exogenous time series. We aim to improve a non-parametric forecasting algorithm that minimizes the convolution of a histogram of time series with the loss function. We propose to adjust the histogram, using mixtures of conditional histograms as a less sparse alternative to multidimensional histogram and in some cases demonstrate the decrease of loss compared to the basic forecasting algorithm. To the extent of our knowledge, such approach to combining endogenous and exogenous time series is original and has not been proposed yet. The suggested method is illustrated with the data from the Russian Railways.)
+
-
 
+
-
*{{Статья
+
-
|автор = А.П. Мотренко, К.В. Рудаков, В.В. Стрижов
+
-
|название = Учет влияния экзогенных факторов при непараметрическом прогнозировании временных рядов
+
-
|журнал = Вестник Московского Университета. Серия 15. Вычислительная математика и кибернетика
+
-
|год = 2016
+
|язык = russian
|язык = russian
 +
|страницы = 51-60
 +
|url = http://mlalgorithms.svn.sourceforge.net/viewvc/mlalgorithms/JMLDA/2011no1/pdf/Motrenko2011Granger.pdf
}}
}}

Версия 15:03, 1 марта 2016

Анастасия Мотренко, аспирант факультета управления и прикладной математик МФТИ

Кафедра "Интеллектуальные системы"

Направление "Интеллектуальный анализ данных"

email: anastasiya.motrenko@phystech.edu

Научно-исследовательская работа

Весна 2015, 14-й семестр

Учет влияния экзогенных факторов при непараметрическом прогнозировании временных рядов (Combining endogenous and exogenous variables in a special case of non-parametric time series forecasting model)

В работе рассмотрена задача повышения качества прогнозирования временных рядов путем учета влияния экзогенных факторов и информации о реализации значений экзогенных временных рядов. Предложено улучшение алгоритма гистограммного прогнозирования, основанного на методах квантильной регрессии и свертке гистограммы временного ряда с функцией потерь. Рассмотрены методы уточнения гистограммы с помощью условных гистограмм и смеси гистограмм. Предлагаемые подходы иллюстрируются задачей о прогнозировании объемов грузовых железнодорожных перевозок.

(We address a problem of increasing quality of forecasting time series by taking into account the information about exogenous time series. We aim to improve a non-parametric forecasting algorithm that minimizes the convolution of a histogram of time series with the loss function. We propose to adjust the histogram, using mixtures of conditional histograms as a less sparse alternative to multidimensional histogram and in some cases demonstrate the decrease of loss compared to the basic forecasting algorithm. To the extent of our knowledge, such approach to combining endogenous and exogenous time series is original and has not been proposed yet. The suggested method is illustrated with the data from the Russian Railways.)

  • А.П. Мотренко, К.В. Рудаков, В.В. Стрижов Учет влияния экзогенных факторов при непараметрическом прогнозировании временных рядов // Вестник Московского Университета. Серия 15. Вычислительная математика и кибернетика. — 2016.

Осень 2015, 13-й семестр

Extracting fundamental periods to segment biomedical signals We address the problem of segmenting nearly periodic time series into period-like segments. We introduce a definition of nearly periodic time series via triplets "basic shape, shape transformation, time scaling" that covers a wide range of time series. To split the time series into periods we select a pair of principal components of the Hankel matrix. We then cut the trajectory of the selected principal components by its symmetry axis, thus obtaining half-periods that are merged into segments. We describe a method of automatic selection of periodic pairs of principal components, corresponding to the fundamental periodicity.

We demonstrate the application of the proposed method to the problem of period extraction for accelerometric time series of human gait. We see the automatic segmentation into periods as a problem of major importance for human activity recognition problem, since it allows to obtain interpretable segments: each segment corresponding to the fundamental period can be seen as an ultimate entity of gait.

The method we propose is more general compared to the ad-hoc methods of step detection and can be used for any nearly periodical segments. We also compare its performance to classical mathematical methods of period extraction and find it more precise.

  • Motrenko A., Strijov V. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics (resubmitted 08.02.2015). — 2015.



Весна 2014, 12-й семестр

Построение агрегированных прогнозов объемов железнодорожных грузоперевозок

Данное исследование посвящено проблеме построения агрегированных прогнозов объемов железнодорожных грузоперевозок. Для получения агрегированных прогнозов требуется кластеризовать временные ряды таким образом, чтобы распределение временных рядов внутри кластера совпадали. При решении задачи кластеризации требуется оценить близость между временными рядами, исходя из их эмпирических распределений. Вводится критерий принадлежности временных рядов одному распределению, основанный на расстоянии Кульбака-Лейблера между гистограммами временных рядов. Приводится теоретическое и практическое исследование предложенного критерия. Решается задача кластеризации временных рядов на основе матрицы парных расстояний между ними.

  • Мотренко А. П., Стрижов B. B. Построение агрегированных прогнозов объемов железнодорожных грузоперевозок // Информатика и ее применения. — 2014. — Т. 8. — № 2. — С. 86-97.

Доклад на научной конференции Motrenko A. Bayesian Sample Size Estimation for Patient Classification Survey // 20th Conference of the International Federation of Operational Research Societies, July. — 2014.


Осень 2013, 11-й семестр

Sample Size Determination for Logistic Regression

The problem of sample size estimation is important in medical applications, especially in cases of expensive measurements of immune biomarkers. This paper describes the problem of logistic regression analysis with the sample size determination algorithms namely the methods of univariate statistics, logistics regression, cross-validation and Bayesian inference. The authors, treating the regression model parameters as a multivariate variable, propose to estimate the sample size using the distance between parameter distribution functions on cross-validated data sets. Herewith, the authors give a new contribution to data mining and statistical learning, supported by applied mathematics.

  • Motrenko A., Strijov V., Weber G.-W. Bayesian sample size estimation for logistic regression // Journal of Computational and Applied Mathematics, 2014, 255 — 743-752.

Весна 2013, 10-й семестр

Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла

Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.

  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. — 2013. — № 5. — С. 503-517. — ISSN 2223-3792.

Доклады на научных конференциях

  • Мотренко А.П. Разделяющие и порождающие алгоритмы классификации малых выборок. — 2013.
  • Мотренко А.П. Small CVD sample set classification: generative versus discriminative // XXVI EURO conference, июль. — 2013.

Гранты

  • «Многоклассовая логистическая регрессия», ПГАС
  • РФФИ 12-07-31095


Осень 2012, 9-й семестр

Оценка плотности совместного распределения

В задачах классификации часто возникает ситуация, когда часть переменных распределена непрерывно, а часть - дискретно. Например, в логистической регрессии признаки непрерывны, а переменная отклика подчиняется распределению Бернулли. В работе описан способ оценки плотности совместного неоднородного распределения, включающего дискретные и непрерывные величины. Рассмотрен случай, когда вероятностные предположения о распределении случайных величин сделать не удается. В этом случае применяются методы ядерного сглаживания. В работе также приводится их сравнение с классическими методами теории вероятностей. Эксперимент проводится на реальных и синтетических данных.


Публикации

  • Мотренко А.П. Оценка плотности совместного распределения // Машинное обучение и анализ данных. — 2013. — № 4. — С. 428-435. — ISSN 2223-3792.


Доклад на научной конференции


Гранты

  • «Многоклассовая логистическая регрессия», ПГАС
  • РФФИ 12-07-31095


Весна 2012, 8-й семестр

Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний

В работе описан алгоритм классификации пациентов, перенесших инфаркт и имеющих предрасположенность к инфаркту. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Решается задача оценки параметров функции регрессии и выбора признаков в логистической регрессии. Предполагается, что объем данных недостаточен, поэтому в работе предлагается способ оценки необходимого объема выборки.

Публикации

  • Мотренко А.П. Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний // Машинное обучение и анализ данных. — 2012. — № 3. — С. 354-366. — ISSN 2223-3792.
  • Мотренко А.П., Стрижов В.В. Многоклассовая логистическая регрессия // Известия ТулГУ. — 2012. — № 1. — С. 153-162. — ISSN 2071-6176.


Доклад на научной конференции

Гранты

  • «Многоклассовая логистическая регрессия», ПГАС

Осень 2011, 7-й семестр

Многоклассовый прогноз вероятности наступления инфаркта

В работе описан алгоритм, позволяющий классифицировать четыре группы пациентов: перенесших инфаркт; больных, имеющих предрасположенность к инфаркту и здоровых пациентов двух групп. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Одной из задач работы является выбор набора маркеров, оптимального для разделения между собой соответствующих групп. Классификация осуществляется по принципу «каждый против каждого», то есть решаются задачи классификации всевозможных пар групп. В силу высокой стоимости анализа крови, объемы данных невелики, поэтому одним из результатов исследования является оценка необходимого объема выборки пациентов.

Публикация

Весна 2011, 6-й семестр

Использование теста Грейнджера при прогнозировании временных рядов

При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений). Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.

Публикация

Личные инструменты