Участник:Iefimova
Материал из MachineLearning.
(→Отчет о научно-исследовательской работе) |
(→Отчет о научно-исследовательской работе) |
||
(3 промежуточные версии не показаны) | |||
Строка 9: | Строка 9: | ||
'''Отбор признаков в метрических алгоритмах классификации для дифференциальной диагностики заболеваний по электрокардиограмме''' | '''Отбор признаков в метрических алгоритмах классификации для дифференциальной диагностики заболеваний по электрокардиограмме''' | ||
- | ''Рассматривается задача диагностики заболеваний на основе анализа сигналов электрокардиограммы. Исследование состоит в построении метрического алгоритма с отбором признаков для поиска диагностических эталонов. Отбор признаков производится с помощью локально-оптимального алгоритма. На основе построенных эталонов осуществляется классификация различных болезней. Используются данные о шести заболеваниях, которые получены по анализу электрокардиосигналов. Данные о каждом заболевании разбиты на две подгруппы. Первая подгруппа - более надежные специально отобранные случаи. Они используются на этапе обучения алгоритма. Вторая - случаи, когда диагнозы устанавливались врачами менее надежно. Они используются в качестве контрольного множества. Предполагается, что больные пациенты имеют <<схожее>> признаковое описание, <<отличающееся>> от характеристик здоровых. Для формализации понятия <<схожести>> на множестве объектов вводится функция расстояния - взвешенная метрика Минковского, - которая используется в метрическом алгоритме. В результате, построенный алгоритм позволил отобрать информативные признаки для каждой болезни. Исследуется обобщающая способность построенного алгоритма. | + | ''Рассматривается задача диагностики заболеваний на основе анализа сигналов электрокардиограммы. Исследование состоит в построении метрического алгоритма с отбором признаков для поиска диагностических эталонов. Отбор признаков производится с помощью локально-оптимального алгоритма. На основе построенных эталонов осуществляется классификация различных болезней. Используются данные о шести заболеваниях, которые получены по анализу электрокардиосигналов. Данные о каждом заболевании разбиты на две подгруппы. Первая подгруппа - более надежные специально отобранные случаи. Они используются на этапе обучения алгоритма. Вторая - случаи, когда диагнозы устанавливались врачами менее надежно. Они используются в качестве контрольного множества. Предполагается, что больные пациенты имеют <<схожее>> признаковое описание, <<отличающееся>> от характеристик здоровых. Для формализации понятия <<схожести>> на множестве объектов вводится функция расстояния - взвешенная метрика Минковского, - которая используется в метрическом алгоритме. В результате, построенный алгоритм позволил отобрать информативные признаки для каждой болезни. Исследуется обобщающая способность построенного алгоритма.'' |
- | '' | + | |
'''Подготовлена статья:''' | '''Подготовлена статья:''' | ||
Строка 17: | Строка 17: | ||
[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Efimova2014DiagnosticsOfDiseases/doc/Efimova2014DiagnosticsOfDiseases.pdf?format=raw pdf] | [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Efimova2014DiagnosticsOfDiseases/doc/Efimova2014DiagnosticsOfDiseases.pdf?format=raw pdf] | ||
+ | |||
+ | |||
+ | '''<big>Осень 2014, 7-й семестр</big>''' | ||
+ | |||
+ | '''Формирование однородных обучающих выборок в задачах классификации''' | ||
+ | |||
+ | ''В работе рассматривается задача пополнения обучающей выборки. Имеются две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов – объектов с неверной классификацией. Исследование состоит в построении алгоритма, позволяющего очищать вторую выборку от выбросов, для получения одной однородной выборки. Предложен метод выравнивания ROC-кривых (кривых ошибок). В экспериментах показано, что данный метод эффективнее следующих: метод сближения Area Under Curve (AUC, площадь под ROC-кривой), жадное удаление объектов с наименьшими отступами.'' | ||
+ | |||
+ | '''Доклад на научной конференции''' | ||
+ | |||
+ | 57-я международная научная конференция МФТИ. 24-29 ноября 2014г. Доклад "Формирование однородных обучающих выборок в задачах классификации". | ||
+ | |||
+ | '''Технический отчёт''' | ||
+ | |||
+ | ''Ефимова И.В.'' [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Efimova2014HomogeneousSample/doc/Efimova2014Systemdocs.doc?format=raw Формирование однородных обучающих выборок в информационном анализе ЭКГ-сигналов], Технический отчёт // '' вычислительных экспериментов mvr.jmlda.org'' (дата обращения: 30.12.2014). | ||
+ | |||
+ | '''Публикация''' | ||
+ | |||
+ | ''Успенский В. М., Воронцов К. В., Целых В. Р., Бунаков В. А., Ефимова И. В., Полежаев В. А.'' Информационный анализ электрокардиосигналов для диагностики многих заболеваний внутренних органов по одной электрокардиограмме // ''Интеллектуализация обработки информации (ИОИ-2014): Тезисы докл.— Москва: Торус Пресс, 2014. С. 172–173.'' | ||
+ | |||
+ | |||
+ | '''<big>Весна 2015, 8-й семестр</big>''' | ||
+ | |||
+ | '''Формирование однородных обучающих выборок в задачах классификации''' | ||
+ | |||
+ | ''Разработаны и реализованы рандомизированный метод выравнивания ROC-кривых, метод выделения объектов,влияющих на переобучение, для решения задачи пополнения обучающих выборок. Исследовано поведение данных методов при обучении на небольших выборках. Проведены эксперименты на полумодельных и реальных данных задачи медицинской диагностики. Предварительно были оценены длины обучающих выборок, которые необходимы для успешной классификации.'' | ||
+ | |||
+ | '''Доклад на научной конференции''' | ||
+ | |||
+ | Метод фильтрации выбросов путем выравнивания ROC-кривых в задачах классификации // ''Традиционная Школа "Управление, информация и оптимизация", 14–20 июня 2015 г., г. Солнечногорск Московской области'' | ||
+ | |||
+ | |||
+ | '''<big>Осень 2016, 11-й семестр</big>''' | ||
+ | |||
+ | '''Иерархическая мультимодальная тематическая модель коллекции научно-популярных текстов''' | ||
+ | |||
+ | ''Рассматривается задача построения иерархической тематической модели коллекции документов. Особенность данной задачи заключается в наличии дополнительной метаинформации документов, которая включает в себя и часть тем, присутствующих в документах. В работе предложен метод послойного построения иерархии коллекции текстов. Также предложены критерии качества, оценивающие построенную модель. В экспериментах показано, что данный метод позволяет строить интерпретируемые мультимодальные тематические иерархии, в которых удобно ориентироваться пользователю.'' | ||
+ | |||
+ | Готовится статья: "Иерархическая мультимодальная тематическая модель коллекции научно-популярных текстов". |
Текущая версия
Ефимова Ирина Валерьевна,
МФТИ, ФУПМ, 174 группа
Отчет о научно-исследовательской работе
Весна 2014, 6-й семестр
Отбор признаков в метрических алгоритмах классификации для дифференциальной диагностики заболеваний по электрокардиограмме
Рассматривается задача диагностики заболеваний на основе анализа сигналов электрокардиограммы. Исследование состоит в построении метрического алгоритма с отбором признаков для поиска диагностических эталонов. Отбор признаков производится с помощью локально-оптимального алгоритма. На основе построенных эталонов осуществляется классификация различных болезней. Используются данные о шести заболеваниях, которые получены по анализу электрокардиосигналов. Данные о каждом заболевании разбиты на две подгруппы. Первая подгруппа - более надежные специально отобранные случаи. Они используются на этапе обучения алгоритма. Вторая - случаи, когда диагнозы устанавливались врачами менее надежно. Они используются в качестве контрольного множества. Предполагается, что больные пациенты имеют <<схожее>> признаковое описание, <<отличающееся>> от характеристик здоровых. Для формализации понятия <<схожести>> на множестве объектов вводится функция расстояния - взвешенная метрика Минковского, - которая используется в метрическом алгоритме. В результате, построенный алгоритм позволил отобрать информативные признаки для каждой болезни. Исследуется обобщающая способность построенного алгоритма.
Подготовлена статья:
• Ефимова И.В., Целых В.Р., Воронцов К.В. Отбор признаков в метрических алгоритмах классификации для дифференциальной диагностики заболеваний по электрокардиограмме // Будет подано в JMLDA
Осень 2014, 7-й семестр
Формирование однородных обучающих выборок в задачах классификации
В работе рассматривается задача пополнения обучающей выборки. Имеются две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов – объектов с неверной классификацией. Исследование состоит в построении алгоритма, позволяющего очищать вторую выборку от выбросов, для получения одной однородной выборки. Предложен метод выравнивания ROC-кривых (кривых ошибок). В экспериментах показано, что данный метод эффективнее следующих: метод сближения Area Under Curve (AUC, площадь под ROC-кривой), жадное удаление объектов с наименьшими отступами.
Доклад на научной конференции
57-я международная научная конференция МФТИ. 24-29 ноября 2014г. Доклад "Формирование однородных обучающих выборок в задачах классификации".
Технический отчёт
Ефимова И.В. Формирование однородных обучающих выборок в информационном анализе ЭКГ-сигналов, Технический отчёт // вычислительных экспериментов mvr.jmlda.org (дата обращения: 30.12.2014).
Публикация
Успенский В. М., Воронцов К. В., Целых В. Р., Бунаков В. А., Ефимова И. В., Полежаев В. А. Информационный анализ электрокардиосигналов для диагностики многих заболеваний внутренних органов по одной электрокардиограмме // Интеллектуализация обработки информации (ИОИ-2014): Тезисы докл.— Москва: Торус Пресс, 2014. С. 172–173.
Весна 2015, 8-й семестр
Формирование однородных обучающих выборок в задачах классификации
Разработаны и реализованы рандомизированный метод выравнивания ROC-кривых, метод выделения объектов,влияющих на переобучение, для решения задачи пополнения обучающих выборок. Исследовано поведение данных методов при обучении на небольших выборках. Проведены эксперименты на полумодельных и реальных данных задачи медицинской диагностики. Предварительно были оценены длины обучающих выборок, которые необходимы для успешной классификации.
Доклад на научной конференции
Метод фильтрации выбросов путем выравнивания ROC-кривых в задачах классификации // Традиционная Школа "Управление, информация и оптимизация", 14–20 июня 2015 г., г. Солнечногорск Московской области
Осень 2016, 11-й семестр
Иерархическая мультимодальная тематическая модель коллекции научно-популярных текстов
Рассматривается задача построения иерархической тематической модели коллекции документов. Особенность данной задачи заключается в наличии дополнительной метаинформации документов, которая включает в себя и часть тем, присутствующих в документах. В работе предложен метод послойного построения иерархии коллекции текстов. Также предложены критерии качества, оценивающие построенную модель. В экспериментах показано, что данный метод позволяет строить интерпретируемые мультимодальные тематические иерархии, в которых удобно ориентироваться пользователю.
Готовится статья: "Иерархическая мультимодальная тематическая модель коллекции научно-популярных текстов".