Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 12)
(Задача 9)
Строка 504: Строка 504:
=== Задача 9 ===
=== Задача 9 ===
-
* '''Название:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм
+
* '''Название:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
* '''Задача:''' Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
* '''Задача:''' Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
* '''Данные:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
* '''Данные:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
* '''Литература:'''
* '''Литература:'''
*# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
*# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
 +
*# [[Технология информационного анализа электрокардиосигналов]]
*# Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
*# Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
*# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
*# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.

Версия 21:08, 25 февраля 2015


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры информационных систем ФУПМ МФТИ.


Выложен разбор задач по Матлабу (ДЗ-1), pdf


Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант ДЗ-1 ДЗ-2 (Номер задачи) Буквы Сумма Оценка
Газизуллина Римма (пример) Прогнозирование объемов железнодорожных грузоперевозок по парам веток [1], pdf Стенина Мария 4 42 [MF]TAI+L+SBR+CV+T>DEH(J) 16 10
Бернштейн Юлия 1 3 (8)
Бочкарев Артем 2 2 (7)
Володин Сергей 3.5 3 (26)
Гераськин Иван 0 0
Гончаров Алексей 1.5 1 (4)
Двинских Дарина 0.5 3 (7)
Жариков Илья 3.5 3 (5)
Задаянчук Андрей 2 0 (17)
Златов Александр 1.5 3 (14)
Исаченко Роман 3.5 3 (14)
Кононова Александра 2.5 3 (4)
Нейчев Радослав 1 3 (9)
Подкопаев Александр 3.5 3 (11)
Решетова Дарья 2.5 3 (10)
Смирнов Евгений 1 1 (4)
Соломатин Иван 3 (9)
Сухарева Анжелика 0.5
Черных Владимир 3.5 3 (4)
Шишковец Светлана 3.5 2 (9)
Болдырева Анна 2 1 (11)

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1

  • Название: Повышение качества прогнозирования спроса с использованием групп товаров
  • Задача:

Дано:

    1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
    2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
    3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
    4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Задача заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

  • Данные:
    1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
  • Литература:
    1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
    2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
    3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
    4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
  • Базовой алгоритм: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
    1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
    2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
    3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
  • Решение: Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
  • Новизна: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
  • Консультант: Каневский Д.Ю.

Задача 2

  • Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
  • Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
  • Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
  • Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • Консультант: Олег Бахтеев.

Задача 3

  • Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Задача:
  • Данные: Синтетические данные и тесты.
  • Литература:
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • Консультант: Александр Адуенко.

Задача 4

  • Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
  • Задача: постановка задачи из [3] формула (32)
  • Данные: временные ряды с ценами на электроэнергию.
  • Литература:
    • Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
    • Основные статьи:
    1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
    2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
    3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
  • Базовой алгоритм:
    1. LAD-Lasso estimation из [7]
    2. Статья Сандуляну про модификацию Add-Del: [8].
  • Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
  • Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
  • Консультант: Александр Катруца.

Задача 5

  • Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
  • Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
  • Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
  • Литература
    • Описание прикладной задачи и техническое задание: по запросу.
  • Базовой алгоритм: Преобразование Хафа [10], обсуждается.
  • Консультант: И.А. Матвеев

Задача 6

  • название: 9. Прогнозирование четвертичных структур белков: нивелирование ===
  • Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения.

Suppose we have N proteins in an assembly, such that each protein i can be located in one of P positions x_{p}^{i}. N is ~ 10, P ~ 100. To each two vectors x_{i}^{p} and x_{j}^{q}, we can assign an energy function q_{0}, which is the overlap integral in the simplest approximation. Each protein position also has an associated score b_{0}. Thus, the optimal packing problem can be formulated as


\begin{align}
x^{T}Q_{0}x+b_{0}^{T}x	&\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.		&&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k
\end{align}

  • Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
  • Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
  • Замечания по коду: Замечания по программной реализации
  • Базовый алгоритм: Хочется попробовать выпуклые релаксации.
  • Консультант: Ю.В. Максимов

Задача 7

  • Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
  • Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
  • Данные: временные ряды цен на электроэнергию
  • Литература:
    1. [11] - базовая статья
    2. [12] - отличный обзор методов Metric Learning
    3. [13] - ещё обзор
  • Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
  • Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
  • Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
  • Консультант: Александр Катруца

Задача 8

  • Название: Структурное обучение при порождении моделей
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
  • Литература
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

  • Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
  • Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
  • Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
  • Литература:
    1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
    2. Технология информационного анализа электрокардиосигналов
    3. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
    4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
    5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
    6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
    7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
    8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
    9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
  • Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
  • Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
  • Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
  • Консультант: Ишкина Шаура

Задача 10

  • Название: Simplification of the IR models structure
  • Задача: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of the simple nonlinear functions and expect to obtain the comparable quality of solution.
  • Данные: Подколлекции TREC.
  • Литература
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Problem statement
  • Базовой алгоритм: Exaustive search of superpositions from a set of elementary functions.
  • Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
  • Новизна: A new ranking function, competitive with tradidtional ones, is proposed.
  • Консультант: Михаил Кузнецов

Задача 11

  • Название: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
  • Задача: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
  • Данные: Данные о грузовых железнодорожных перевозках (РЖД)
  • Литература:
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
    • Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
  • Базовой алгоритм: ARMA, Hist.
  • Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
  • Новизна: Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
  • Консультант: Стенина Мария

Задача 12

  • Название: 39. Обучение метрик в задачах полного и частичного обучения
  • Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
  • Литература: Список литературы и описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: выпуклая релаксация задачи решаемая внутренней точкой через CVX.
  • Консультант: Ю.В. Максимов

Задача 13

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:

Планы на следующий год:

  1. Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.
Личные инструменты