Участник:Anastasiya/Песочница
Материал из MachineLearning.
Список проектов
1. Устойчивость алгоритмов обучения вероятностных тематических моделей.
Консультант: А.А. Потапенко
2. Устойчивость алгоритмов обучения вероятностных тематических моделей.
Консультант: В.Р. Целых
3. Устойчивость алгоритмов обучения вероятностных тематических моделей.
Консультант: М.М. Дударенко
4. Построение рейтингов вузов: панельный анализ и оценка устойчивости.
Консультант: М.П. Кузнецов
Задача: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, коотоая бы позволяля интерпретировать изменение состояния вуза.
Данные: Данные по ста ведущим мировым университетам за восемь лет.
Литература:
- Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
- Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
- Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
- Загрузить черновик JMLR в архив, дать ссылку.
Базовой алгоритм: Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.
Новизна: Введено понятие интерпретируемости изменения позиции рейтинга. Решена задача выбора и оптимальной локалоно-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяюшевого интерпретировать изменене состояния вуза с целью мониторинга. Вариант: решена обратная задача управления: как изменить показатели вуза, чтобы достичь заданной цели.
5. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами.
Консультант: А.П. Мотренко
Задача: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических? данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей. Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам. Литература:
- Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
- Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
- George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.
Базовой алгоритм: convergent cross mapping Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей
6. Последовательное порождение существенно нелинейных моделей в задачах ранзирования текстов.
Консультант: М.П. Кузнецов
Задача: Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной струтуры модели (добавлене элемента суперпозиции).
Данные: Синтетические даные, данные по текстовым коллекциям LIG.
Литература:
- Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
- Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
- Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
- Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
- Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.
Базовой алгоритм: Алгорим полного перебора допустимых суперпозиций порождающих функций.
Новизна: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
7. Обнаружение измоморфных структур существенно нелинейных прогностических моделей
Консультант: М.П. Кузнецов
Задача: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.
Данные: Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.
Литература:
- Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
- Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
- Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
- Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
- Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.
Базовой алгоритм: Алгоритм поэлементного сравнения отображений.
Новизна: Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.
8. Построение прогностических моделей как суперпозиций экспертно-заданных функций
Консультант: Н.П. Ивкин
Задача: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).
Данные: данные с акселерометра мобильного телефона.
Литература:
- Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
- Хайкин С. Нейронные сети. Вильямс, 2006.
Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).
Новизна: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций экспертно-заданных функций.
Сравнение структурной и топологической сложности в задачах классификации. Взять идею Рудакова для случая Лёвы Романова.
9. Использование лагированной фазовой траектории для прогнозирования наборов квазипериодических временных рядов
Консультант: Н.П. Ивкин
Задача: ??
Данные: данные с акселерометра мобильного телефона.
Литература:
- Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
- Хайкин С. Нейронные сети. Вильямс, 2006.
Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).
Новизна: ???
10. Интерпретация мультимоделей при обработке социологических данных
Консультант: А.А. Адуенко
Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.
Данные: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).
Литература:
- смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
- бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)
Базовой алгоритм: бустинг.
Новизна: Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.
11. Выбор оптимальных структур прогностических моделей методами структурного обучения
Консультант: А.А. Варфоломеева
Задача: Предлагается решать задачу прогнозирования в два этапа: сначала историям построения успешный прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.
Данные: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.
Литература:
- Jaakkola T. Scaled structured prediction.
- URL: http://video.yandex.ru/users/ya-events/view/486/user-tag/научный%20семинар/
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Базовой алгоритм: алгоритм метапрогнозирования, описанный в дипломной работе.
Новизна: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.
12. Инварианты при прогнозировании квазипериодических рядов
Консультант: А.А. Кузьмин
Задача: Решается задача почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.
Данные: почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).
Литература:
- Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7 — 11-15.
- (взять из последней статьи Фадеева)
Базовой алгоритм: авторегрессионное прогнозирование, описанное в работе Сандуляну.
Новизна: Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.
13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток
Консультант: М.М. Стенина (Медведникова)
Задача: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.
Данные: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.
Литература:
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
Базовый алгоритм: гистограммное прогнозирование, описанное в статье.
Новизна: предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.
13. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра
Консультант: А.А. Токмакова
Задача: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.
Данные: Набор временных рядов измерений акселерометра.
Литература:
- Прореживание нейронных семей на сайте Machinelearning.ru.
- Хайкин С. Нейронные сети. Вильямс, 2006.
Базовой алгоритм: Optimal Brain Damage/Optimal Brain Surgery.
Новизна: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.
15. Метапрогнозирование временных рядов
Консультант: А.С. Инякин
Задача:
Данные: библиотека квазипериодических и апериодических временных рядов
Литература:
- Отчет по библиотеке прогнозирования
- Необходим обширный поиск литературы
Базовой алгоритм: Использовать алгоритм SAS/SPSS, если у них это есть.
Новизна:
16. Распознавание изображений
Консультант: И.А. Матвеев
16. Ю.Н. Максимов
Название: Поиск эффективных отображений наблюдений с представлением многоклассовой задачи классификации в виде задачи с двумя классами
Задача: Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.
Данные: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc Литература: 1. Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf 2. Tax, Duin. Using two-class classifiers for multiclass classification. Pattern Recognition, 2002. Proceedings. 16th International Conference on (Volume:2). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.7063&rep=rep1&type=pdf 3. Dietterich, Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. 1995. http://arxiv.org/pdf/cs/9501101 4. Allwein, Schapire, Singer. Reducing Multiclass to Binary:A Unifying Approach for Margin Classifiers. Journal of Machine Learning Research 1 (2000) 113-141. http://machinelearning.wustl.edu/mlpapers/paper_files/AllweinSS00.pdf
Базовые подходы: one vs all(combined), one vs one(uncombined)
Базовые алгоритмы: SVM с различными ядрами, Adaboost
17. Доведение ума до спутников.
Консультант: И.А. Рейер
Задача:
Данные: библиотека квазипериодических и апериодических временных рядов
Литература:
- Отчет по библиотеке прогнозирования
- Необходим обширный поиск литературы
Базовой алгоритм: Исполизовать алгоритм SAS/SPSS, если у них это есть.
Новизна: