Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

Перейти к: навигация, поиск


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры информационных систем ФУПМ МФТИ.


Выложен разбор задач по Матлабу (ДЗ-1), pdf


Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант ДЗ-1 ДЗ-2 (Номер задачи) Буквы Сумма Оценка
Газизуллина Римма (пример) Прогнозирование объемов железнодорожных грузоперевозок по парам веток [1], pdf Стенина Мария 4 42 [MF]TAI+L+SBR+CV+T>DEH(J) 16 10
Бернштейн Юлия 1 3 (8)
Бочкарев Артем 2 2 (7)
Володин Сергей 3.5 3 (26)
Гераськин Иван 0 0
Гончаров Алексей 1.5 1 (4)
Двинских Дарина 0.5 3 (7)
Жариков Илья 3.5 3 (5)
Задаянчук Андрей 2 0 (17)
Златов Александр 1.5 3 (14)
Исаченко Роман 3.5 3 (14)
Кононова Александра 2.5 3 (4)
Нейчев Радослав 1 3 (9)
Подкопаев Александр 3.5 3 (11)
Решетова Дарья 2.5 3 (10)
Смирнов Евгений 1 1 (4)
Соломатин Иван 3 (9)
Сухарева Анжелика 0.5
Черных Владимир 3.5 3 (4)
Шишковец Светлана 3.5 2 (9)
Болдырева Анна 2 1 (11)

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1

  • Название: Построение интегрального индикатора по многоиндексной матрице оценок нескольких экспертов
  • Задача: Дана многомерная матрица экспертных оценок (эксперт-критерий-объект), выполненная в ранговых шкалах. В матрице допускается существенное количество пропущенных значений. Эксперты упорядочены по уровню значимости. Каждый эксперт также может указать его мнение о важности каждого критерия. Требуется построить интегральный индикатор по данной матрице. Алгоритм должен быть устойчив к большому количеству пропущенных данных. Добавление: требуется решить задачу выбора признаков, признаки принимают значения из разномощных шкал.
  • Данные: таблица с оценками экспертов компаний, предлагающих платежные сервисы
  • Литература:
  • Базовой алгоритм: Парето-оптимальный фронт (см. последний пункт литературы)
  • Решение: Предлагается сравнивать медиану кемени (требуется модифицировать для поставленной задачи) с базовым алгоритмом
  • Новизна: Задача предполагает сильную вариативность исходных данных для алгоритма и является обобщением многих классических задач Preference Learning и Decision Making.
  • Консультант: Олег Бахтеев.

Задача 2

  • Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
  • Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
  • Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
  • Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • Консультант: Олег Бахтеев.

Задача 3

  • Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Задача:
  • Данные: Синтетические данные и тесты.
  • Литература:
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • Консультант: Александр Адуенко.

Задача 4

  • Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
  • Задача: постановка задачи из [3] формула (32)
  • Данные: временные ряды с ценами на электроэнергию.
  • Литература:
    • Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
    • Основные статьи:
    1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
    2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
    3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
  • Базовой алгоритм:
    1. LAD-Lasso estimation из [7]
    2. Статья Сандуляну про модификацию Add-Del: [8].
  • Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
  • Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
  • Консультант: Александр Катруца.

Задача 5

  • Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
  • Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
  • Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
  • Литература
    • Описание прикладной задачи и техническое задание: по запросу.
  • Базовой алгоритм: Преобразование Хафа [10], обсуждается.
  • Консультант: И.А. Матвеев

Задача 6

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:


Задача 7

  • Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
  • Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
  • Данные: временные ряды цен на электроэнергию
  • Литература:
    1. [11] - базовая статья
    2. [12] - отличный обзор методов Metric Learning
    3. [13] - ещё обзор
  • Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
  • Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
  • Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
  • Консультант: Александр Катруца

Задача 8

  • Название: Структурное обучение при порождении моделей
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
  • Литература
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

  • Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм
  • Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
  • Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
  • Литература:
    1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
    2. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
    3. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
    4. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
    5. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
    6. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
    7. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
    8. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
  • Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
  • Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
  • Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
  • Консультант: Ишкина Шаура

Задача 10

  • Название: Simplification of the IR models structure
  • Задача: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of the simple nonlinear functions and expect to obtain the comparable quality of solution.
  • Данные: Подколлекции TREC.
  • Литература
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Problem statement
  • Базовой алгоритм: Exaustive search of superpositions from a set of elementary functions.
  • Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
  • Новизна: A new ranking function, competitive with tradidtional ones, is proposed.
  • Консультант: Михаил Кузнецов

Задача 11

  • Название: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
  • Задача: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
  • Данные: Данные о грузовых железнодорожных перевозках (РЖД)
  • Литература:
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
    • Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
  • Базовой алгоритм: ARMA, Hist.
  • Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
  • Новизна: Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
  • Консультант:

Задача 12

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:

Планы на следующий год:

  1. Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.
Личные инструменты