Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015
Материал из MachineLearning.
(→Задача 7) |
м (→Результаты) |
||
Строка 29: | Строка 29: | ||
! Консультант | ! Консультант | ||
! ДЗ-1 | ! ДЗ-1 | ||
- | ! ДЗ-2 Номер задачи | + | ! ДЗ-2 (Номер задачи) |
! Буквы | ! Буквы | ||
! Сумма | ! Сумма | ||
Строка 49: | Строка 49: | ||
| | | | ||
|1 | |1 | ||
- | | 8 | + | |3 (8) |
| | | | ||
| | | | ||
Строка 59: | Строка 59: | ||
| | | | ||
|2 | |2 | ||
- | |7 | + | |2 (7) |
| | | | ||
| | | | ||
Строка 69: | Строка 69: | ||
| | | | ||
|3.5 | |3.5 | ||
- | | | + | |3 (26) |
| | | | ||
| | | | ||
Строка 79: | Строка 79: | ||
| | | | ||
|0 | |0 | ||
- | | | + | |0 |
| | | | ||
| | | | ||
Строка 89: | Строка 89: | ||
| | | | ||
|1.5 | |1.5 | ||
- | | 4 | + | |1 (4) |
| | | | ||
| | | | ||
Строка 99: | Строка 99: | ||
| | | | ||
|0.5 | |0.5 | ||
- | | 7 | + | |3 (7) |
| | | | ||
| | | | ||
Строка 109: | Строка 109: | ||
| | | | ||
|3.5 | |3.5 | ||
- | | 5 | + | |3 (5) |
| | | | ||
| | | | ||
Строка 119: | Строка 119: | ||
| | | | ||
|2 | |2 | ||
- | | 17 | + | |0 (17) |
| | | | ||
| | | | ||
Строка 129: | Строка 129: | ||
| | | | ||
|1.5 | |1.5 | ||
- | | | + | |3 (14) |
| | | | ||
| | | | ||
Строка 139: | Строка 139: | ||
| | | | ||
|3.5 | |3.5 | ||
- | |14 | + | |3 (14) |
| | | | ||
| | | | ||
Строка 149: | Строка 149: | ||
| | | | ||
|2.5 | |2.5 | ||
- | | 4 | + | |3 (4) |
| | | | ||
| | | | ||
Строка 159: | Строка 159: | ||
| | | | ||
|1 | |1 | ||
- | | 9 | + | |3 (9) |
| | | | ||
| | | | ||
Строка 169: | Строка 169: | ||
| | | | ||
|3.5 | |3.5 | ||
- | | 11 | + | |3 (11) |
| | | | ||
| | | | ||
Строка 179: | Строка 179: | ||
| | | | ||
|2.5 | |2.5 | ||
- | | | + | |3 (10) |
| | | | ||
| | | | ||
Строка 189: | Строка 189: | ||
| | | | ||
|1 | |1 | ||
- | | | + | |1 (4) |
| | | | ||
| | | | ||
| | | | ||
|- | |- | ||
- | | | + | |Соломатин Иван |
| | | | ||
| | | | ||
| | | | ||
- | | | + | | |
- | | | + | |3 (9) |
| | | | ||
| | | | ||
| | | | ||
|- | |- | ||
- | | | + | |Сухарева Анжелика |
| | | | ||
| | | | ||
| | | | ||
- | | | + | |0.5 |
- | | | + | | |
| | | | ||
| | | | ||
| | | | ||
|- | |- | ||
- | | | + | |Черных Владимир |
| | | | ||
| | | | ||
| | | | ||
|3.5 | |3.5 | ||
- | | | + | |3 (4) |
| | | | ||
| | | | ||
| | | | ||
|- | |- | ||
- | | | + | |Шишковец Светлана |
| | | | ||
| | | | ||
| | | | ||
- | | | + | |3.5 |
- | | | + | |2 (9) |
| | | | ||
| | | | ||
Строка 239: | Строка 239: | ||
| | | | ||
|2 | |2 | ||
- | |11 | + | |1 (11) |
| | | | ||
| | | |
Версия 12:21, 25 февраля 2015
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты Кафедры информационных систем ФУПМ МФТИ.
- Описание курса
- Методика преподавания
- Результаты предыдущего курса
- Требования к слушателям
- Короткая ссылка на эту страницу: bit.ly/1y5lM2T
Выложен разбор задач по Матлабу (ДЗ-1), pdf |
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылка | Консультант | ДЗ-1 | ДЗ-2 (Номер задачи) | Буквы | Сумма | Оценка |
---|---|---|---|---|---|---|---|---|
Газизуллина Римма (пример) | Прогнозирование объемов железнодорожных грузоперевозок по парам веток | [1], pdf | Стенина Мария | 4 | 42 | [MF]TAI+L+SBR+CV+T>DEH(J) | 16 | 10 |
Бернштейн Юлия | 1 | 3 (8) | ||||||
Бочкарев Артем | 2 | 2 (7) | ||||||
Володин Сергей | 3.5 | 3 (26) | ||||||
Гераськин Иван | 0 | 0 | ||||||
Гончаров Алексей | 1.5 | 1 (4) | ||||||
Двинских Дарина | 0.5 | 3 (7) | ||||||
Жариков Илья | 3.5 | 3 (5) | ||||||
Задаянчук Андрей | 2 | 0 (17) | ||||||
Златов Александр | 1.5 | 3 (14) | ||||||
Исаченко Роман | 3.5 | 3 (14) | ||||||
Кононова Александра | 2.5 | 3 (4) | ||||||
Нейчев Радослав | 1 | 3 (9) | ||||||
Подкопаев Александр | 3.5 | 3 (11) | ||||||
Решетова Дарья | 2.5 | 3 (10) | ||||||
Смирнов Евгений | 1 | 1 (4) | ||||||
Соломатин Иван | 3 (9) | |||||||
Сухарева Анжелика | 0.5 | |||||||
Черных Владимир | 3.5 | 3 (4) | ||||||
Шишковец Светлана | 3.5 | 2 (9) | ||||||
Болдырева Анна | 2 | 1 (11) |
Расписание
Дата | ДЗ | Тема лекции | Результат для обсуждения | Код | |
Февраль | 12 | Вводная лекция. | Задано ДЗ-1. | -- | |
19 | 1 | Начало, демонстрация интерфейсов. Выбор задачи пробного программирования | Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. | -- | |
Дата | ДЗ | Что делаем | Результат для обсуждения | Код | |
26 | 2 | Решить пробную задачу, написать код. Выбор задачи | Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. | Test | |
Март | 5 | 3 | Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. | Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. | Abstract, Introduction, Literature |
12 | 4 | Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. | Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). | Statement, Basic code, Report | |
19 | 5 | Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. | Код, визуализация полученных результатов, анализ ошибки, анализ качества. | Code, Visualization | |
26 | 6 | Описание алгоритма. | Алгоритмическая часть статьи (второй / третий раздел). | Theory | |
Апрель | 2 | 7 | Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. | Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». | Document |
9 | 8 | Завершение вычислительного эксперимента. | Описание эксперимента с анализом ошибок. | Error | |
16 | 8 | Контрольная точка — показ статьи в целом. | Доработанная статья. | сHeck | |
23 | 9 | Доклады и обсуждение. | Статья подана в журнал. | Show, Journal |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
Задачи
Шаблон описания научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Список проектов
Задача 1
- Название: Построение интегрального индикатора по многоиндексной матрице оценок нескольких экспертов
- Задача: Дана многомерная матрица экспертных оценок (эксперт-критерий-объект), выполненная в ранговых шкалах. В матрице допускается существенное количество пропущенных значений. Эксперты упорядочены по уровню значимости. Каждый эксперт также может указать его мнение о важности каждого критерия. Требуется построить интегральный индикатор по данной матрице. Алгоритм должен быть устойчив к большому количеству пропущенных данных. Добавление: требуется решить задачу выбора признаков, признаки принимают значения из разномощных шкал.
- Данные: таблица с оценками экспертов компаний, предлагающих платежные сервисы
- Литература:
- http://dimacs.rutgers.edu/~alantha/papers2/acn05conf.pdf - Aggregating Inconsistent Information: Ranking and Clustering
- http://virtual.ihst.ru/sumkin/Sumkin-Weighted-rankings-preprint.pdf - The Resulting Weighted Ranking
- http://strijov.com/papers/Kuznetsov-Strijov2013Concordance.pdf - Methods of expert estimations concordance for integral quality estimation
- http://strijov.com/papers/Medvednikova2014POF.pdf - Instance ranking using partially ordered sets of expert estimations
- Базовой алгоритм: Парето-оптимальный фронт (см. последний пункт литературы)
- Решение: Предлагается сравнивать медиану кемени (требуется модифицировать для поставленной задачи) с базовым алгоритмом
- Новизна: Задача предполагает сильную вариативность исходных данных для алгоритма и является обобщением многих классических задач Preference Learning и Decision Making.
- Консультант: Олег Бахтеев.
Задача 2
- Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
- Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
- Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
- Литература:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [2] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
- Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
- Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
- Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
- Консультант: Олег Бахтеев.
Задача 3
- Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
- Задача:
- Данные: Синтетические данные и тесты.
- Литература:
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
- Решение:
- Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
- Консультант: Александр Адуенко.
Задача 4
- Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
- Задача: постановка задачи из [3] формула (32)
- Данные: временные ряды с ценами на электроэнергию.
- Литература:
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
- Базовой алгоритм:
- Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
- Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
- Консультант: Александр Катруца.
Задача 5
- Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
- Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
- Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
- Литература
- Описание прикладной задачи и техническое задание: по запросу.
- Базовой алгоритм: Преобразование Хафа [10], обсуждается.
- Консультант: И.А. Матвеев
Задача 6
- Название:
- Задача:
- Данные:
- Литература:
- Базовой алгоритм:
- Решение:
- Новизна:
- Консультант:
Задача 7
- Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
- Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
- Данные: временные ряды цен на электроэнергию
- Литература:
- Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
- Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
- Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
- Консультант: Александр Катруца
Задача 8
- Название: Структурное обучение при порождении моделей
- Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
- Данные: Подколлекции TREC.
- Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
- Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
- Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
- Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
- Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
- * Консультант: Анна Варфоломеева
Задача 9
- Название:
- Задача:
- Данные:
- Литература:
- Базовой алгоритм:
- Решение:
- Новизна:
- Консультант:
Планы на следующий год:
- Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.