Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010
Материал из MachineLearning.
м |
м (→Задачи) |
||
(39 промежуточных версий не показаны.) | |||
Строка 16: | Строка 16: | ||
! Комментарии | ! Комментарии | ||
|- | |- | ||
- | | [[ | + | | [[Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)]] |
- | | | + | | Илья Фадеев |
- | | | + | | Фирстенко |
- | | | + | | Г.-В. Вебер |
- | | Данные есть, | + | | Данные есть, Д1, Д2, Э+, A |
|- | |- | ||
| [[Прогнозирование финансовых пузырей (пример)]] | | [[Прогнозирование финансовых пузырей (пример)]] | ||
| Даниил Кононенко | | Даниил Кононенко | ||
- | | | + | | Быстрый |
| Э. Курюм | | Э. Курюм | ||
- | | Данные | + | | Данные надо найти, Д1+, Д2, Э+, A |
|- | |- | ||
- | | [[ | + | | [[Оценка эффективности природоохранных программ (пример)]] |
- | | | + | | Михаил Кузнецов |
- | | | + | | Мафусалов |
- | | | + | | П. Летмате |
- | | Данные | + | | Данные есть, Д1+, Д2, Э+, A |
+ | |- | ||
+ | | [[Построение интегральных индикаторов по ранговым признакам (пример)]] | ||
+ | | Александр Фирстенко | ||
+ | | Морозов | ||
+ | | В.В. Стрижов | ||
+ | | Данные есть, Д1, Д2-, Э+ | ||
|- | |- | ||
| [[Поиск нелинейной модели поверхности Мохоровичича (пример)]] | | [[Поиск нелинейной модели поверхности Мохоровичича (пример)]] | ||
| Александр Мафусалов | | Александр Мафусалов | ||
- | | | + | | Кононенко, Кузнецов |
| С.Н. Агеев | | С.Н. Агеев | ||
- | | Данные | + | | Данные есть, Д1+, Д2, Э+, A |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
|- | |- | ||
| [[Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)]] | | [[Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)]] | ||
- | | | + | | Раиса Джамтырова |
- | | | + | | Фадеев |
| М. Хильдман | | М. Хильдман | ||
- | | Данные есть | + | | Данные есть, Д1, Д2, Э+ |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
|- | |- | ||
| [[Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)]] | | [[Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)]] | ||
| Никита Ивкин | | Никита Ивкин | ||
- | | | + | | Сунгуров |
| В.В. Стрижов | | В.В. Стрижов | ||
- | | Данные | + | | Данные есть, Д1-,Д2--, Э |
|- | |- | ||
- | | [[ | + | | [[Прогнозирование макроэкономических показателей с помощью векторной авторегрессии (пример)]] |
- | | | + | | Павел Сечин |
- | | | + | | Фадеев |
- | | | + | | В.В. Стрижов |
- | | | + | | Данные есть, Д1, Д2, Э |
|- | |- | ||
- | | [ | + | <!-- Работа не окончена --> |
- | | | + | <!-- |
- | | | + | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group774/Kornienko2010RejectedPayments/ Исследование скоринговой модели опротестования банковских операций (пример)] |
- | | | + | | Алексей Корниенко |
- | | | + | | Быстрый |
+ | | | ||
+ | | не закончена | ||
|- | |- | ||
- | | | + | --> |
- | | | + | <!-- Работа не окончена --> |
- | | | + | | Порождение суперпозиций при выборе модели кредитного скоринга ([https://svn.code.sf.net/p/mlalgorithms/code/Group774/Zhivotovskiy2010Superpositions/ описание и код]) |
- | | В. Стрижов | + | | Никита Животовский |
- | | | + | | В.В. Стрижов |
+ | | В.В. Стрижов | ||
+ | | Примитивы есть, [в работе] | ||
|- | |- | ||
+ | <!-- Работа не окончена --> | ||
+ | | Классификация пациентов CVD с помощью биомаркеров ([https://svn.code.sf.net/p/mlalgorithms/code/Group774/Sungurov2010CVD/ описание и код]) | ||
+ | | Сунгуров Дмитрий | ||
+ | | Морозов | ||
+ | | Д. Брей | ||
+ | | Данные есть, Д1, [в работе] | ||
+ | |- | ||
+ | <!-- Работа не окончена --> | ||
+ | <!-- | ||
+ | | [[Прогнозирование класса третичной структуры белка по первичной (пример)]] | ||
+ | | Алексей Морозов | ||
+ | | Фирстенко | ||
+ | | И.Ю. Торшин | ||
+ | | Данные есть, Д1, [нет информации] | ||
+ | |- | ||
+ | --> | ||
|} | |} | ||
Строка 100: | Строка 102: | ||
Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что | Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что | ||
# признаки-биомаркеры имеют множественную линейную зависимость; | # признаки-биомаркеры имеют множественную линейную зависимость; | ||
- | |||
# признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех; | # признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех; | ||
# один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1); | # один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1); | ||
- | # в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу. | + | # следует выбрать способ классификации (один против всех или каждый против каждого); |
+ | # пациентов мало: желательно оценить их необходимое число; | ||
+ | # в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу. | ||
=== [[Прогнозирование финансовых пузырей (пример)]] === | === [[Прогнозирование финансовых пузырей (пример)]] === | ||
Строка 138: | Строка 141: | ||
=== [[Прогнозирование управляемых макроэкономических показателей (пример)]] === | === [[Прогнозирование управляемых макроэкономических показателей (пример)]] === | ||
- | Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [http://data.cemi.rssi.ru/graf/ | + | Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [http://data.cemi.rssi.ru/graf/]. Исходное описание алгоритма находится [http://strijov.com/papers/macro1.pdf], [http://strijov.com/papers/mmro11.pdf] и [http://strijov.com/papers/Strijov2005ActualnyeProblemy.pdf]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени. |
Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.). | Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.). | ||
+ | |||
+ | 22.09.2010 - ссылка на данные открывается. Для удобства данные сведены в единую таблицу, доступно здесь [https://docs.google.com/document/edit?id=1P1zsw8D-QjnmrgRkvgsRne442ckouTzUPLI6T5C1nas&hl=en]. (Сечин Павел) | ||
== [[Порождение суперпозиций при выборе модели кредитного скоринга (пример)]] == | == [[Порождение суперпозиций при выборе модели кредитного скоринга (пример)]] == | ||
Строка 146: | Строка 151: | ||
Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения. | Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения. | ||
- | == [[ | + | == [[Построение интегральных индикаторов по ранговым признакам (пример)]] == |
+ | Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах. | ||
+ | Используемые данные — ежегодные отчеты заповедников РФ. | ||
- | == [[ | + | == [[Исследование скоринговой модели опротестования банковских операций (пример)]] == |
+ | Даны данные по операциям, которые клиент банка пытается опротестовать. Они делятся на три блока: данные о клиенте, данные по финансовой части операции и данные по резервированию средств со счёта. Требуется построить модель предсказания результатов диспутного цикла (будет ли операция успешно опротестована) и провести анализ полученной модели. | ||
- | == [[Прогнозирование | + | == [[Прогнозирование потребительского спроса (пример)]] == |
- | + | Требуется обобщить и формализовать постановку задачи непараметрического прогнозирования квазипериодических многомерных временных рядов. Описать общее решение задачи, включающее декомпозицию прогностических моделей. Желательно использовать данные ликвидных сезонных товаров. (NB нужна консультация Юрия Яновича). | |
- | + | ||
== Доклады и Экзамен == | == Доклады и Экзамен == | ||
* Доклад-1 не позднее 29 сентября | * Доклад-1 не позднее 29 сентября | ||
* Доклад-2 не позднее 27 октября | * Доклад-2 не позднее 27 октября | ||
+ | * Контрольная точка 24 ноября | ||
* Экзамен 1 декабря | * Экзамен 1 декабря | ||
+ | |||
+ | == Дополнение == | ||
+ | |||
+ | На семинаре 10 ноября мы договорились о нижеследующем: | ||
+ | * 24 ноября будет "контрольная точка" (вместо доклада-3), | ||
+ | * 1 декабря будет экзамен по схеме "какое качество работы - такая оценка", | ||
+ | * работы с невысоким качеством идут на пересдачу, но пересдаем один раз. | ||
+ | |||
+ | Что требуется сделать к 24 ноября: | ||
+ | * написать статью "в целом" - с аннотацией, введением, постановкой задачи, математической частью, вычислительным экспериментом (картинками, результатами), заключением, литературой. | ||
+ | |||
+ | 24 ноября работаем по схеме: | ||
+ | * до первой лекции в 10:30 нужно сдать работу в печатном виде или в PDF, | ||
+ | * на занятии будут сделаны общие замечания, будет сказано о критериях качества работы, | ||
+ | * потом будут разобраны частные случаи. | ||
+ | |||
+ | Что требуется сделать к 1 декабря (экзамен): | ||
+ | * представить чистовой вариант статьи, | ||
+ | * рецензию (на чужую статью), | ||
+ | * страницу в machinelearning с аннотацией статьи, | ||
+ | * код в репозитории mlalgorithms. | ||
+ | |||
+ | До 24 ноября будет только одно занятие - 17 ноября по стандартному плану. Будем разбирать схемы написания рецензий. | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Текущая версия
Перед выполнением заданий рекомендуются к прочтению
- Численные методы обучения по прецедентам
- Отчет о выполнении исследовательского проекта
- Автоматизация и стандартизация научных исследований
Задачи
Название задачи | Работу выполняет | Работу рецензируют | Задачу предложил | Комментарии |
---|---|---|---|---|
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример) | Илья Фадеев | Фирстенко | Г.-В. Вебер | Данные есть, Д1, Д2, Э+, A |
Прогнозирование финансовых пузырей (пример) | Даниил Кононенко | Быстрый | Э. Курюм | Данные надо найти, Д1+, Д2, Э+, A |
Оценка эффективности природоохранных программ (пример) | Михаил Кузнецов | Мафусалов | П. Летмате | Данные есть, Д1+, Д2, Э+, A |
Построение интегральных индикаторов по ранговым признакам (пример) | Александр Фирстенко | Морозов | В.В. Стрижов | Данные есть, Д1, Д2-, Э+ |
Поиск нелинейной модели поверхности Мохоровичича (пример) | Александр Мафусалов | Кононенко, Кузнецов | С.Н. Агеев | Данные есть, Д1+, Д2, Э+, A |
Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример) | Раиса Джамтырова | Фадеев | М. Хильдман | Данные есть, Д1, Д2, Э+ |
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример) | Никита Ивкин | Сунгуров | В.В. Стрижов | Данные есть, Д1-,Д2--, Э |
Прогнозирование макроэкономических показателей с помощью векторной авторегрессии (пример) | Павел Сечин | Фадеев | В.В. Стрижов | Данные есть, Д1, Д2, Э |
Порождение суперпозиций при выборе модели кредитного скоринга (описание и код) | Никита Животовский | В.В. Стрижов | В.В. Стрижов | Примитивы есть, [в работе] |
Классификация пациентов CVD с помощью биомаркеров (описание и код) | Сунгуров Дмитрий | Морозов | Д. Брей | Данные есть, Д1, [в работе] |
Классификация пациентов CVD с помощью биомаркеров (пример)
Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что
- признаки-биомаркеры имеют множественную линейную зависимость;
- признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
- один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
- следует выбрать способ классификации (один против всех или каждый против каждого);
- пациентов мало: желательно оценить их необходимое число;
- в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.
Прогнозирование финансовых пузырей (пример)
Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)
Прогнозирование класса третичной структуры белка по первичной (пример)
Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.
Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]
Структура данных
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
- d1dlya_ -- идентификатор эксперимента (код файла в PDB),
- a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
- slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).
Поиск нелинейной модели поверхности Мохоровичича (пример)
Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации используя поле силы тяжести измеренное с большей детальностью чем эталонная выборка. И тогда надо построить . Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов , и от влияния некоторого количества границ раздела . Тогда все превращается в .
В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.
Прогнозирование управляемых макроэкономических показателей (пример)
Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [3]. Исходное описание алгоритма находится [4], [5] и [6]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.
Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).
22.09.2010 - ссылка на данные открывается. Для удобства данные сведены в единую таблицу, доступно здесь [7]. (Сечин Павел)
Порождение суперпозиций при выборе модели кредитного скоринга (пример)
Требуется построить систему порождения и выбора признаков, измеренных в разнородных шкалах: номинальной, ординальной и линейной. Каждый порожденный признак должен принадлежать индуктивно-заданному множеству суперпозиций; множество задается правилами. Признаки выбираются одним из стандартных алгоритмов, например, шаговой регрессией или генетическим алгоритмом. Основная задача работы -- придумать способ описания правил порождения.
Построение интегральных индикаторов по ранговым признакам (пример)
Требуется предложить алгоритм построения интегральных индикаторов для матрицы описаний объектов, состоящей из признаков в разнородных шкалах. Используемые данные — ежегодные отчеты заповедников РФ.
Исследование скоринговой модели опротестования банковских операций (пример)
Даны данные по операциям, которые клиент банка пытается опротестовать. Они делятся на три блока: данные о клиенте, данные по финансовой части операции и данные по резервированию средств со счёта. Требуется построить модель предсказания результатов диспутного цикла (будет ли операция успешно опротестована) и провести анализ полученной модели.
Прогнозирование потребительского спроса (пример)
Требуется обобщить и формализовать постановку задачи непараметрического прогнозирования квазипериодических многомерных временных рядов. Описать общее решение задачи, включающее декомпозицию прогностических моделей. Желательно использовать данные ликвидных сезонных товаров. (NB нужна консультация Юрия Яновича).
Доклады и Экзамен
- Доклад-1 не позднее 29 сентября
- Доклад-2 не позднее 27 октября
- Контрольная точка 24 ноября
- Экзамен 1 декабря
Дополнение
На семинаре 10 ноября мы договорились о нижеследующем:
- 24 ноября будет "контрольная точка" (вместо доклада-3),
- 1 декабря будет экзамен по схеме "какое качество работы - такая оценка",
- работы с невысоким качеством идут на пересдачу, но пересдаем один раз.
Что требуется сделать к 24 ноября:
- написать статью "в целом" - с аннотацией, введением, постановкой задачи, математической частью, вычислительным экспериментом (картинками, результатами), заключением, литературой.
24 ноября работаем по схеме:
- до первой лекции в 10:30 нужно сдать работу в печатном виде или в PDF,
- на занятии будут сделаны общие замечания, будет сказано о критериях качества работы,
- потом будут разобраны частные случаи.
Что требуется сделать к 1 декабря (экзамен):
- представить чистовой вариант статьи,
- рецензию (на чужую статью),
- страницу в machinelearning с аннотацией статьи,
- код в репозитории mlalgorithms.
До 24 ноября будет только одно занятие - 17 ноября по стандартному плану. Будем разбирать схемы написания рецензий.