Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 23:43, 24 февраля 2015

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры информационных систем ФУПМ МФТИ.

Описание курса
Методика преподавания
Результаты предыдущего курса
Требования к слушателям
Короткая ссылка на эту страницу: bit.ly/1y5lM2T

Выложен разбор задач по Матлабу (ДЗ-1), pdf

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор	Тема научной работы	Ссылка	Консультант	ДЗ-1	ДЗ-2 Номер задачи	Буквы	Сумма	Оценка
Газизуллина Римма (пример)	Прогнозирование объемов железнодорожных грузоперевозок по парам веток	[1], pdf	Стенина Мария	4	42	[MF]TAI+L+SBR+CV+T>DEH(J)	16	10
Бернштейн Юлия				1	8
Бочкарев Артем				2	7
Володин Сергей				3.5	ДЗ-2 Номер задачи
Гераськин Иван				0	ДЗ-2 Номер задачи
Гончаров Алексей				1.5	4
Двинских Дарина				0.5	7
Жариков Илья				3.5	5
Задаянчук Андрей				2	17
Златов Александр				1.5	ДЗ-2 Номер задачи
Исаченко Роман				3.5	14
Кононова Александра				2.5	4
Нейчев Радослав				1	9
Подкопаев Александр				3.5	11
Решетова Дарья				2.5	ДЗ-2 Номер задачи
Смирнов Евгений				1	ДЗ-2 Номер задачи
Сухарева Анжелика				0.5	ДЗ-2 Номер задачи
Черных Владимир				3.5	ДЗ-2 Номер задачи
Шишковец Светлана				3.5	ДЗ-2 Номер задачи
Ахтямова Лилия				1
Болдырева Анна				2	11

Расписание

Дата		ДЗ	Тема лекции	Результат для обсуждения	Код
Февраль	12		Вводная лекция.	Задано ДЗ-1.	--
	19	1	Начало, демонстрация интерфейсов. Выбор задачи пробного программирования	Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты.	--
Дата		ДЗ	Что делаем	Результат для обсуждения	Код
	26	2	Решить пробную задачу, написать код. Выбор задачи	Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии.	Test
Март	5	3	Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы.	Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле.	Abstract, Introduction, Literature
	12	4	Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма.	Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко).	Statement, Basic code, Report
	19	5	Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов.	Код, визуализация полученных результатов, анализ ошибки, анализ качества.	Code, Visualization
	26	6	Описание алгоритма.	Алгоритмическая часть статьи (второй / третий раздел).	Theory
Апрель	2	7	Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение.	Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение».	Document
	9	8	Завершение вычислительного эксперимента.	Описание эксперимента с анализом ошибок.	Error
	16	8	Контрольная точка — показ статьи в целом.	Доработанная статья.	сHeck
	23	9	Доклады и обсуждение.	Статья подана в журнал.	Show, Journal

Работа и консультации

Работы сдаются в течение недели.
Желательна итеративная сдача работ, начинать показ лучше в выходные.
Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

Название: Название, под которым статья подается в журнал.

Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.

Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.

Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.

Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.

Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.

Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Список проектов

Задача 1

Название: Построение интегрального индикатора по многоиндексной матрице оценок нескольких экспертов
Задача: Дана многомерная матрица экспертных оценок (эксперт-критерий-объект), выполненная в ранговых шкалах. В матрице допускается существенное количество пропущенных значений. Эксперты упорядочены по уровню значимости. Каждый эксперт также может указать его мнение о важности каждого критерия. Требуется построить интегральный индикатор по данной матрице. Алгоритм должен быть устойчив к большому количеству пропущенных данных. Добавление: требуется решить задачу выбора признаков, признаки принимают значения из разномощных шкал.
Данные: таблица с оценками экспертов компаний, предлагающих платежные сервисы
Литература:
- http://dimacs.rutgers.edu/~alantha/papers2/acn05conf.pdf - Aggregating Inconsistent Information: Ranking and Clustering
- http://virtual.ihst.ru/sumkin/Sumkin-Weighted-rankings-preprint.pdf - The Resulting Weighted Ranking
- http://strijov.com/papers/Kuznetsov-Strijov2013Concordance.pdf - Methods of expert estimations concordance for integral quality estimation
- http://strijov.com/papers/Medvednikova2014POF.pdf - Instance ranking using partially ordered sets of expert estimations
Базовой алгоритм: Парето-оптимальный фронт (см. последний пункт литературы)
Решение: Предлагается сравнивать медиану кемени (требуется модифицировать для поставленной задачи) с базовым алгоритмом
Новизна: Задача предполагает сильную вариативность исходных данных для алгоритма и является обобщением многих классических задач Preference Learning и Decision Making.
Консультант: Олег Бахтеев.

Задача 2

Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
Литература:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [2] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
Консультант: Олег Бахтеев.

Задача 3

Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
Задача:
Данные: Синтетические данные и тесты.
Литература:
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
Решение:
Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
Консультант: Александр Адуенко.

Задача 4

Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
Задача: постановка задачи из [3] формула (32)
Данные: временные ряды с ценами на электроэнергию.
Литература:
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
Базовой алгоритм:
1. LAD-Lasso estimation из [7]
2. Статья Сандуляну про модификацию Add-Del: [8].
Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
Консультант: Александр Катруца.

Задача 5

Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
Литература
- Описание прикладной задачи и техническое задание: по запросу.
Базовой алгоритм: Преобразование Хафа [10], обсуждается.
Консультант: И.А. Матвеев

Задача 6

Название:
Задача:
Данные:
Литература:
Базовой алгоритм:
Решение:
Новизна:
Консультант:

Задача 7

Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
Задача:
Данные:
Литература:
Базовой алгоритм:
Решение:
Новизна:
Консультант: Александр Катруца

Задача 8

Название: Структурное обучение при порождении моделей
Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Данные: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [11]
Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* Консультант: Анна Варфоломеева

Задача 9

Название:
Задача:
Данные:
Литература:
Базовой алгоритм:
Решение:
Новизна:
Консультант:

Планы на следующий год:

Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_274%2C_%D0%B2%D0%B5%D1%81%D0%BD%D0%B0_2015»

@@ Строка 159: / Строка 159: @@
 |
 |1
-| ДЗ-2 Номер задачи
+| 9
 |
 |