Участник:Anastasiya

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 149: Строка 149:
|url = http://lomonosov-msu.ru/archive/Lomonosov_2012/structure_16_1797.htm
|url = http://lomonosov-msu.ru/archive/Lomonosov_2012/structure_16_1797.htm
}}
}}
-
*{{Статья
+
 
-
|автор = Мотренко А.П.
+
-
|название = Multiclass classification of cardio-vascular disease patients with sample size estimation
+
-
|журнал = XXV EURO conference, июль
+
-
|год = 2012
+
-
|язык = english
+
-
|url = http://www.euro-online.org/conf/display.php?page=slot&day=T&time=D&track=44
+
-
}}
+
'''Гранты'''
'''Гранты'''
Строка 168: Строка 161:
Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.
Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.
-
'''Публикации'''
+
 
*{{Статья
*{{Статья
|автор = Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И.
|автор = Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И.
Строка 180: Строка 173:
}}
}}
-
+
 
 +
''' Sample Size Determination for Logistic Regression'''
 +
 
 +
The problem of sample size estimation is important in medical applications, especially in cases of expensive measurements of
 +
immune biomarkers. This paper describes the problem of logistic regression analysis with the sample size determination algorithms
 +
namely the methods of univariate statistics, logistics regression, cross-validation and Bayesian inference. The authors, treating the
 +
regression model parameters as a multivariate variable, propose to estimate the sample size using the distance between parameter
 +
distribution functions on cross-validated data sets. Herewith, the authors give a new contribution to data mining and statistical learning, supported by applied mathematics.
 +
 
 +
*{{Статья
 +
|автор = Motrenko A., Strijov V.,Gerhard-Wilhelm Weber
 +
|название = Sample Size Determination for Logistic Regression
 +
|журнал = Journal of Computational and Applied Mathematics
 +
|год = 2013
 +
|номер = 255
 +
|язык = english
 +
|страницы = 743-752
 +
 +
}}
'''Доклад на научной конференции'''
'''Доклад на научной конференции'''

Версия 07:05, 6 сентября 2013

МФТИ, ФУПМ

Кафедра "Интеллектуальные системы"

Направление "Интеллектуальный анализ данных"

email: anastasia.motrenko@gmail.com

Отчет о научно-исследовательской работе

Весна 2011, 6-й семестр

Использование теста Грейнджера при прогнозировании временных рядов

При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений). Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.

Публикация

Осень 2011, 7-й семестр

Многоклассовый прогноз вероятности наступления инфаркта

В работе описан алгоритм, позволяющий классифицировать четыре группы пациентов: перенесших инфаркт; больных, имеющих предрасположенность к инфаркту и здоровых пациентов двух групп. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Одной из задач работы является выбор набора маркеров, оптимального для разделения между собой соответствующих групп. Классификация осуществляется по принципу «каждый против каждого», то есть решаются задачи классификации всевозможных пар групп. В силу высокой стоимости анализа крови, объемы данных невелики, поэтому одним из результатов исследования является оценка необходимого объема выборки пациентов.

Публикация


Весна 2012, 8-й семестр

Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний

В работе описан алгоритм классификации пациентов, перенесших инфаркт и имеющих предрасположенность к инфаркту. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Решается задача оценки параметров функции регрессии и выбора признаков в логистической регрессии. Предполагается, что объем данных недостаточен, поэтому в работе предлагается способ оценки необходимого объема выборки.

Публикации

  • Мотренко А.П. Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний // Машинное обучение и анализ данных. — 2012. — № 3. — С. 354-366. — ISSN 2223-3792.
  • Мотренко А.П., Стрижов В.В. Многоклассовая логистическая регрессия // Известия ТулГУ. — 2012. — С. 153-162. — ISSN 2071-6176.
  • Motrenko A., Strijov V., Weber G.-W. Bayesian sample size estimation for logistic regression // International Conference on Applied and Computational Mathematics, Inproceedings. — 2012.

Доклад на научной конференции

Гранты

  • «Многоклассовая логистическая регрессия», ПГАС

Осень 2012, 9-й семестр

Оценка плотности совместного распределения

В задачах классификации часто возникает ситуация, когда часть переменных распределена непрерывно, а часть~--- дискретно. Например, в логистической регрессии признаки непрерывны, а переменная отклика подчиняется распределению Бернулли. В работе описан способ оценки плотности совместного неоднородного распределения, включающего дискретные и непрерывные величины. Рассмотрен случай, когда вероятностные предположения о распределении случайных величин сделать не удается. В этом случае применяются методы ядерного сглаживания. В работе также приводится их сравнение с классическими методами теории вероятностей. Эксперимент проводится на реальных и синтетических данных.


Публикации

  • Мотренко А.П. Оценка плотности совместного распределения // Машинное обучение и анализ данных. — 2013. — № 4. — С. 428-435. — ISSN 2223-3792.


Доклад на научной конференции


Гранты

  • «Многоклассовая логистическая регрессия», ПГАС
  • РФФИ 12-07-31095

Весна 2013, 10-й семестр

Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла

Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.


  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. — 2013. — № 5. — С. 503-517. — ISSN 2223-3792.

Sample Size Determination for Logistic Regression

The problem of sample size estimation is important in medical applications, especially in cases of expensive measurements of immune biomarkers. This paper describes the problem of logistic regression analysis with the sample size determination algorithms namely the methods of univariate statistics, logistics regression, cross-validation and Bayesian inference. The authors, treating the regression model parameters as a multivariate variable, propose to estimate the sample size using the distance between parameter distribution functions on cross-validated data sets. Herewith, the authors give a new contribution to data mining and statistical learning, supported by applied mathematics.

*Motrenko A., Strijov V.,Gerhard-Wilhelm Weber Sample Size Determination for Logistic Regression // Journal of Computational and Applied Mathematics. — 2013. — No. 255. — Pp. 743-752. 

Доклад на научной конференции

  • Мотренко А.П. Разделяющие и порождающие алгоритмы классификации малых выборок. — 2013.
  • Мотренко А.П. Small CVD sample set classification: generative versus discriminative // XXV EURO conference, июль. — 2013.

Гранты

  • «Многоклассовая логистическая регрессия», ПГАС
  • РФФИ 12-07-31095
Личные инструменты