Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Результаты)
(Результаты)
Строка 159: Строка 159:
|
|
|1
|1
-
| ДЗ-2 Номер задачи
+
| 9
|
|
|
|

Версия 23:43, 24 февраля 2015


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры информационных систем ФУПМ МФТИ.


Выложен разбор задач по Матлабу (ДЗ-1), pdf


Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант ДЗ-1 ДЗ-2 Номер задачи Буквы Сумма Оценка
Газизуллина Римма (пример) Прогнозирование объемов железнодорожных грузоперевозок по парам веток [1], pdf Стенина Мария 4 42 [MF]TAI+L+SBR+CV+T>DEH(J) 16 10
Бернштейн Юлия 1 8
Бочкарев Артем 2 7
Володин Сергей 3.5 ДЗ-2 Номер задачи
Гераськин Иван 0 ДЗ-2 Номер задачи
Гончаров Алексей 1.5 4
Двинских Дарина 0.5 7
Жариков Илья 3.5 5
Задаянчук Андрей 2 17
Златов Александр 1.5 ДЗ-2 Номер задачи
Исаченко Роман 3.5 14
Кононова Александра 2.5 4
Нейчев Радослав 1 9
Подкопаев Александр 3.5 11
Решетова Дарья 2.5 ДЗ-2 Номер задачи
Смирнов Евгений 1 ДЗ-2 Номер задачи
Сухарева Анжелика 0.5 ДЗ-2 Номер задачи
Черных Владимир 3.5 ДЗ-2 Номер задачи
Шишковец Светлана 3.5 ДЗ-2 Номер задачи
Ахтямова Лилия 1
Болдырева Анна 2 11

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1

  • Название: Построение интегрального индикатора по многоиндексной матрице оценок нескольких экспертов
  • Задача: Дана многомерная матрица экспертных оценок (эксперт-критерий-объект), выполненная в ранговых шкалах. В матрице допускается существенное количество пропущенных значений. Эксперты упорядочены по уровню значимости. Каждый эксперт также может указать его мнение о важности каждого критерия. Требуется построить интегральный индикатор по данной матрице. Алгоритм должен быть устойчив к большому количеству пропущенных данных. Добавление: требуется решить задачу выбора признаков, признаки принимают значения из разномощных шкал.
  • Данные: таблица с оценками экспертов компаний, предлагающих платежные сервисы
  • Литература:
  • Базовой алгоритм: Парето-оптимальный фронт (см. последний пункт литературы)
  • Решение: Предлагается сравнивать медиану кемени (требуется модифицировать для поставленной задачи) с базовым алгоритмом
  • Новизна: Задача предполагает сильную вариативность исходных данных для алгоритма и является обобщением многих классических задач Preference Learning и Decision Making.
  • Консультант: Олег Бахтеев.

Задача 2

  • Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
  • Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
  • Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
  • Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • Консультант: Олег Бахтеев.

Задача 3

  • Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Задача:
  • Данные: Синтетические данные и тесты.
  • Литература:
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • Консультант: Александр Адуенко.

Задача 4

  • Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
  • Задача: постановка задачи из [3] формула (32)
  • Данные: временные ряды с ценами на электроэнергию.
  • Литература:
    • Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
    • Основные статьи:
    1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
    2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
    3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
  • Базовой алгоритм:
    1. LAD-Lasso estimation из [7]
    2. Статья Сандуляну про модификацию Add-Del: [8].
  • Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
  • Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
  • Консультант: Александр Катруца.

Задача 5

  • Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
  • Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
  • Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
  • Литература
    • Описание прикладной задачи и техническое задание: по запросу.
  • Базовой алгоритм: Преобразование Хафа [10], обсуждается.
  • Консультант: И.А. Матвеев

Задача 6

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:


Задача 7

  • Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант: Александр Катруца

Задача 8

  • Название: Структурное обучение при порождении моделей
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [11]
  • Литература
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * Консультант: Анна Варфоломеева

Задача 9

  • Название:
  • Задача:
  • Данные:
  • Литература:
  • Базовой алгоритм:
  • Решение:
  • Новизна:
  • Консультант:

Планы на следующий год:

  1. Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.
Личные инструменты