Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, весна 2010
Материал из MachineLearning.
Перед выполнением заданий рекомендуются к прочтению
- Численные методы обучения по прецедентам
- Отчет о выполнении исследовательского проекта
- Автоматизация и стандартизация научных исследований
Задачи
Название алгоритма | Работу выполняет | Работу рецензируют | Результат |
---|---|---|---|
Прореживание двухслойной нейронной сети (пример) | Кузнецов Михаил | Сечин, Савинов | выполнено |
Порождение нелинейных регрессионных моделей (пример) | Мафусалов Александр | Савинов, Фирстенко | выполнено |
Символьная регрессия и структурное расстояние между моделями (пример) | Фирстенко Александр | Фадеев, Кононенко | выполнено |
Шаговая регрессия (пример) | Джамтырова Раиса | Мафусалов | выполнено |
Выбор признаков с помощью генетических алгоритмов (пример) | Савинов Николай | Мафусалов, Кузнецов | выполнено |
Прогнозирование временных рядов методом SSA (пример) | Фадеев Илья | Кононенко, Фирстенко | выполнено |
SVM регрессия (пример) | Корниенко Алексей | Мафусалов, Фирстенко | выполнено |
SVM для линейно неразделимой выборки (пример) | Сечин Павел | Кузнецов, Савинов | выполнено |
Однослойные сети RBF для решения задач регрессии (пример) | Кононенко Даниил | Сечин, Фирстенко | выполнено |
SVM для линейно разделимой выборки (пример) | Морозов Алексей | Корниенко, Сунгуров | выполнено |
Анализ регрессионных остатков (пример) | Ивкин Никита | Сунгуров | выполнено |
Анализ мультиколлинеарности (пример) | Сунгуров Дмитрий | Ивкин | выполнено |
Группировка категорий и сегментация признаков в логистической регрессии (пример) | Животовский Никита | Фадеев | выполнено |
Аппроксимация Лапласа (пример) | Зайцев Евгений | Корниенко, Быстрый | выполнено |
Решить задачу разделения двух классов в пространстве малой размерности методом SVM для линейно разделимой выборки. Исследовать устойчивость алгоритма: зависимость параметров разделяющей гиперплоскости от дисперсии случайной переменной или наличия выбросов.
Решить задачу разделения двух классов в пространстве малой размерности метдом SVM для линейно неразделимой выборки. В этом случае предлагается использовать несколько различных ядер. Для синтетических данных - двух классов, каждый из которых состоит из смеси гауссовых распределений, подобрать оптимальное ядро.
Решить задачу восстановления регрессии методом SVM. Исследовать зависимость евклидовой нормы вектора параметров от дисперсии случайной величины. Использовать несколько функций распределения. Визуализировать эту зависимость. Визуализировать функцию потерь.
Решить задачу восстановления регрессии с использованием двухслойной нейронной сети. Методом оптимального прореживания нейронных сетей вычислить функцию выпуклости. Исследовать закономерности изменения параметров нейронной сети в процессе прореживания.
Решить задачу восстановления линейной регрессии с разделением выборки на обучающую и тестовую. Использовать и сравнить несколько стратегий генетических алгоритмов при выборе признаков линейной регрессионной модели. Исследовать скорость сходимости каждого из алгоритмов в зависимости от параметров.
Решить задачу восстановления регрессии с использованием сетей RBF. Для настройки сетей использовать EM-алгоритм с добавлением. Исследовать зависимость дисперсии компонент от дисперсии зависимой переменной. Исследовать зависимость дисперсии компонент от их числа.
Решить задачу восстановления линейной регрессии с помощью МНК. Создать инструмент анализа регрессионных остатков. Создать инструмент исследования значимости признаков. Исследовать поведение регрессионных остатков для гетероскедаксичного случая. Нарисовать доверительные интервалы восстановленной зависимой переменной.
Решить задачу восстановления линейной регрессии с помощью МНК. Создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley). Исследовать устойчивость модели: зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке. Проанализировать результаты исследования с точки зрения VIF, Belsley.
Решить задачу выбора признаков восстановления логистической регрессии с помощью метода LARS. Сравнить этот метод и метод шаговой регрессии. Исследовать поведение LARS в разных случаях мультикоррелирующих признаков.
Создать алгоритм прогнозирования многомерных временных рядов методом "Гусеница". Исследовать поведение алгоритма при наличии выбросов во временных рядах. Исследовать поведение алгоритма в случае нарушения периодичности временного ряда.
Для нескольких регрессионных моделей создать процедуру сэмплирования и визуализации пространства параметров. Построить аппроксимацию Лапласа. Исследовать зависимость дисперсии параметров модели от дисперсии случайной величины - зависимой переменной.
Решить задачу символьной регрессии. Ввести функцию структурного расстояния между моделями (например, ввести расстояние между размеченными графами). Исследовать поведение вектора парных расстояний между моделями популяции.
Задан набор порождающих функций двух аргументов (функции одного аргумента считать частным случаем). Функции гладкие параметрические. Требуется создать алгоритм, порождающий лексикографически упорядоченные суперпозиции возрастающей сложности. Каждая суперпозиция является регрессионной моделью одной независимой переменной. Сравнить качество моделей и регрессионные остатки на порожденном множестве.
Решить задачу регрессии нескольких независимых переменных. Использовать для решения несколько различных реализаций МГУА и полиномиальных нейронных сетей. Для выбранного набора данных построить ряд графиков, иллюстрирующих качество полученных моделей (ошибка на тесте и обучении, информационные критерии, мультиколлинеарность).
Задано произвольное множество порождающих функций одного или двух аргументов. (возможно, задано правило построения допустимых супераозиций). Некоторое подмножество функций образует полугруппу. Требуется построить алгоритм, упрощающий структуру суперпозиции.
Сравнить различные способы категоризации номинальных и порядковых признаков и сегментации линейных признаков при решении задач логистической регрессии. Использовать данные German UCI. Вычислить их статистики (статистическая значимость, AUC, и др.) производных признаков и сравнить их.
Экзамен
22, 29 апреля и 6 мая