Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010

Материал из MachineLearning.

Версия от 09:11, 9 февраля 2015; Anastasiya (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Основная статья: Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)

Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи	Работу выполняет	Работу рецензируют	Задачу предложил	Комментарии
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)	Илья Фадеев	Фирстенко	Г.-В. Вебер	Данные есть, Д1, Д2, Э+, A
Прогнозирование финансовых пузырей (пример)	Даниил Кононенко	Быстрый	Э. Курюм	Данные надо найти, Д1+, Д2, Э+, A
Оценка эффективности природоохранных программ (пример)	Михаил Кузнецов	Мафусалов	П. Летмате	Данные есть, Д1+, Д2, Э+, A
Построение интегральных индикаторов по ранговым признакам (пример)	Александр Фирстенко	Морозов	В.В. Стрижов	Данные есть, Д1, Д2-, Э+
Поиск нелинейной модели поверхности Мохоровичича (пример)	Александр Мафусалов	Кононенко, Кузнецов	С.Н. Агеев	Данные есть, Д1+, Д2, Э+, A
Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)	Раиса Джамтырова	Фадеев	М. Хильдман	Данные есть, Д1, Д2, Э+
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)	Никита Ивкин	Сунгуров	В.В. Стрижов	Данные есть, Д1-,Д2--, Э
Прогнозирование макроэкономических показателей с помощью векторной авторегрессии (пример)	Павел Сечин	Фадеев	В.В. Стрижов	Данные есть, Д1, Д2, Э
Порождение суперпозиций при выборе модели кредитного скоринга (описание и код)	Никита Животовский	Кто?	В.В. Стрижов	Примитивы есть, [в работе]
Классификация пациентов CVD с помощью биомаркеров (описание и код)	Сунгуров Дмитрий	Морозов	Д. Брей	Данные есть, Д1, [в работе]

Классификация пациентов CVD с помощью биомаркеров (пример)

Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что

признаки-биомаркеры имеют множественную линейную зависимость;
признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
следует выбрать способ классификации (один против всех или каждый против каждого);
пациентов мало: желательно оценить их необходимое число;
в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.

Прогнозирование финансовых пузырей (пример)

Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)

Прогнозирование класса третичной структуры белка по первичной (пример)

Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.

Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq

d1dlya_ -- идентификатор эксперимента (код файла в PDB),
a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).

Поиск нелинейной модели поверхности Мохоровичича (пример)

Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо $H=f(x,y)$ по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации $H=f(x,y)$ используя поле силы тяжести $G$ измеренное с большей детальностью чем эталонная выборка. И тогда надо построить $H=f(x,y,G(x,y))$ . Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов $A_i$ , и от влияния некоторого количества границ раздела $\Gamma_i$ . Тогда все превращается в $H=f(x,y,G(x,y,A_i,\Gamma_i))$ .

В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины $H$ из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.

Прогнозирование управляемых макроэкономических показателей (пример)

Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [3]. Исходное описание алгоритма находится [4], [5] и [6]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.

Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).

22.09.2010 - ссылка на данные открывается. Для удобства данные сведены в единую таблицу, доступно здесь [7]. (Сечин Павел)

Порождение суперпозиций при выборе модели кредитного скоринга (пример)

Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной. Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.

Построение интегральных индикаторов по ранговым признакам (пример)

Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах. Используемые данные — ежегодные отчеты заповедников РФ.

Исследование скоринговой модели опротестования банковских операций (пример)

Даны данные по операциям, которые клиент банка пытается опротестовать. Они делятся на три блока: данные о клиенте, данные по финансовой части операции и данные по резервированию средств со счёта. Требуется построить модель предсказания результатов диспутного цикла (будет ли операция успешно опротестована) и провести анализ полученной модели.

Прогнозирование потребительского спроса (пример)

Требуется обобщить и формализовать постановку задачи непараметрического прогнозирования квазипериодических многомерных временных рядов. Описать общее решение задачи, включающее декомпозицию прогностических моделей. Желательно использовать данные ликвидных сезонных товаров. (NB нужна консультация Юрия Яновича).

Доклады и Экзамен

Доклад-1 не позднее 29 сентября
Доклад-2 не позднее 27 октября
Контрольная точка 24 ноября
Экзамен 1 декабря

Дополнение

На семинаре 10 ноября мы договорились о нижеследующем:

24 ноября будет "контрольная точка" (вместо доклада-3),
1 декабря будет экзамен по схеме "какое качество работы - такая оценка",
работы с невысоким качеством идут на пересдачу, но пересдаем один раз.

Что требуется сделать к 24 ноября:

написать статью "в целом" - с аннотацией, введением, постановкой задачи, математической частью, вычислительным экспериментом (картинками, результатами), заключением, литературой.

24 ноября работаем по схеме:

до первой лекции в 10:30 нужно сдать работу в печатном виде или в PDF,
на занятии будут сделаны общие замечания, будет сказано о критериях качества работы,
потом будут разобраны частные случаи.

Что требуется сделать к 1 декабря (экзамен):

представить чистовой вариант статьи,
рецензию (на чужую статью),
страницу в machinelearning с аннотацией статьи,
код в репозитории mlalgorithms.

До 24 ноября будет только одно занятие - 17 ноября по стандартному плану. Будем разбирать схемы написания рецензий.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_774%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2010»

Категория: Учебные курсы