Пробные задачи
Материал из MachineLearning.
Строка 3: | Строка 3: | ||
* Решения задач, работы студентов, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/GroupYAD/Example2015Code/ пример]. | * Решения задач, работы студентов, [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/GroupYAD/Example2015Code/ пример]. | ||
- | |||
=== Задача 1=== | === Задача 1=== | ||
Классифицировать [http://archive.ics.uci.edu/ml/datasets/Credit+Approval|заемщиков кредита] с помощью [[Логистическая регрессия|логистической регрессии]]. Для оптимизации параметров использовать алгоритм [[Логистическая регрессия (пример)|Ньютона-Рафсона]] или алгоритм [[Метод градиентного спуска|градиентного спуска]]. Построить ROC-кривые для фиксированного числа разбиений. Построить ряд графиков для различных мощностей подвыборок разбиений. | Классифицировать [http://archive.ics.uci.edu/ml/datasets/Credit+Approval|заемщиков кредита] с помощью [[Логистическая регрессия|логистической регрессии]]. Для оптимизации параметров использовать алгоритм [[Логистическая регрессия (пример)|Ньютона-Рафсона]] или алгоритм [[Метод градиентного спуска|градиентного спуска]]. Построить ROC-кривые для фиксированного числа разбиений. Построить ряд графиков для различных мощностей подвыборок разбиений. | ||
Строка 13: | Строка 12: | ||
===Задача 3=== | ===Задача 3=== | ||
Восстановить регрессию используя формулу [[Формула Надарая-Ватсона|Надарая-Ватсона]]. Нарисовать восстановленную функцию с различными ядрами и шириной окна. В качестве данных использовать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] или [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv| цены на электроэнергию]. | Восстановить регрессию используя формулу [[Формула Надарая-Ватсона|Надарая-Ватсона]]. Нарисовать восстановленную функцию с различными ядрами и шириной окна. В качестве данных использовать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] или [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv| цены на электроэнергию]. | ||
- | |||
===Задача 4=== | ===Задача 4=== | ||
Предсказать сорт винограда из которого сделано вино, используя https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data "wines" результаты химических анализов], c помощью [[Метод_k_ближайших_соседей_(пример)|KNN]] - метода k ближайших соседей с тремя различными метриками. Построить график зависимости величины ошибки от числа соседей k. | Предсказать сорт винограда из которого сделано вино, используя https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data "wines" результаты химических анализов], c помощью [[Метод_k_ближайших_соседей_(пример)|KNN]] - метода k ближайших соседей с тремя различными метриками. Построить график зависимости величины ошибки от числа соседей k. | ||
- | |||
===Задача 5=== | ===Задача 5=== | ||
Нарисовать траекторию пошагового спуска к минимуму [|градиентного метода] и [[Алгоритм имитации отжига|имитации отжига]]. Сравнить их работу при поиске мимимума [SCHWEFEL.pdf|тестовой функции]. | Нарисовать траекторию пошагового спуска к минимуму [|градиентного метода] и [[Алгоритм имитации отжига|имитации отжига]]. Сравнить их работу при поиске мимимума [SCHWEFEL.pdf|тестовой функции]. | ||
- | |||
===Задача 6=== | ===Задача 6=== | ||
Нарисовать путь наименьшей стоимости между временными рядами, найденный с помощью [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015Centroids/code/DTW.zip?format=raw алгоритма DTW]. Ввести ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Показать, что при наименьшей величине отклонения пути от диагонали при этих ограничениях стоимость DTW перейдет в евклидово расстояние. Исследовать зависимость стоимости пути от величины ограничения или же построить [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015Centroids/code/DTW.zip?format=raw "анимацию"] этого пути. | Нарисовать путь наименьшей стоимости между временными рядами, найденный с помощью [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015Centroids/code/DTW.zip?format=raw алгоритма DTW]. Ввести ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Показать, что при наименьшей величине отклонения пути от диагонали при этих ограничениях стоимость DTW перейдет в евклидово расстояние. Исследовать зависимость стоимости пути от величины ограничения или же построить [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015Centroids/code/DTW.zip?format=raw "анимацию"] этого пути. | ||
- | === Задача 7=== | + | ===Задача 7=== |
- | + | ||
По описанию [http://archive.ics.uci.edu/ml/datasets/Fertility условий посева] предсказать прорастут семена растений или нет. Провести бинарную классификацию семян с помощью метода Парзеновского окна. Построить график зависимости ошибки на контроле от ширины окна. Подобрать оптимальную ширину окна. | По описанию [http://archive.ics.uci.edu/ml/datasets/Fertility условий посева] предсказать прорастут семена растений или нет. Провести бинарную классификацию семян с помощью метода Парзеновского окна. Построить график зависимости ошибки на контроле от ширины окна. Подобрать оптимальную ширину окна. | ||
+ | ===Задача 8=== | ||
+ | Классификация [http://archive.ics.uci.edu/ml/datasets/Mushroom ядовитости грибов] по основным признакам. Построить модель классификации на основе [[RBF| сети радиальных базисных функций]]. В качестве функции ошибки использовать метрику [https://www.jair.org/media/346/live-346-1610-jair.pdf HEOM]. | ||
+ | ===Задача 9=== | ||
+ | Заполнение пропусков в данных приложения [https://drive.google.com/open?id=0B3vYNXYMNm_rSWxDVWhLR0tHNEE Сardiomood]. Сравнить различные методы заполнения пропусков <ref>{{книга |автор = Загоруйко Н.Г. |заглавие = Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во ин-та математики, 1999}}</ref>: | ||
+ | |||
+ | 1) Метод замены пропущенного значения средним из ближайших присутствующих элементов переменной. | ||
+ | |||
+ | 2) Метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам. | ||
+ | |||
+ | 3) Метод восстановления пропущенного значения на основе использования Zet-алгоритма <ref>{{книга |автор = Загоруйко Н.Г. |заглавие = Алгоритм заполнения пропусков в эмпирических таблицах. // Эмпирическое предсказание и распознавание образов. - Новосибирск, 1975. - Вып. 61: Вычислительные системы. - С. 3-27}}</ref> . | ||
+ | |||
+ | Сравнение делать оценивая близость восстановленных "пропусков" с реальными данными. | ||
+ | |||
+ | ===Задача 10=== | ||
+ | 2D визуализация [https://drive.google.com/file/d/0B3vYNXYMNm_rMDFGc1B3OS0tRGs/view?usp=sharing N-мерных данных] с помощью [[Метод_главных_компонент|PCA]]. | ||
+ | Курс [https://www.coursera.org/learn/machine-learning/ "Machine Learning"] на Coursera: 7_pca.m script and 2.5 part of exercise 7 [https://drive.google.com/file/d/0B3vYNXYMNm_rNjJiaGJlSDc4X2M/view?usp=sharing]. | ||
+ | Визуализировать результаты на плоскости, оценить ошибку. | ||
Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать. | Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать. | ||
Строка 72: | Строка 84: | ||
<!-- # Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. --> | <!-- # Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. --> | ||
<!-- # Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? --> | <!-- # Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? --> | ||
+ | |||
+ | |||
+ | |||
+ | == Литература == | ||
+ | <references/> | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Версия 07:43, 7 апреля 2016
- Короткая ссылка bit.ly/1B4NKjZ
- Решения задач, работы студентов, пример.
Содержание |
Задача 1
Классифицировать кредита с помощью логистической регрессии. Для оптимизации параметров использовать алгоритм Ньютона-Рафсона или алгоритм градиентного спуска. Построить ROC-кривые для фиксированного числа разбиений. Построить ряд графиков для различных мощностей подвыборок разбиений. Число итераций ограничить либо условием на сходимость – норма разности последовательных векторов весов не больше точности, либо числом шагов.
Задача 2
Нарисовать траекторию пошагового спуска к минимуму градиентного метода и имитации отжига. Сравнить их работу при поиске мимимума тестовой функции.
Задача 3
Восстановить регрессию используя формулу Надарая-Ватсона. Нарисовать восстановленную функцию с различными ядрами и шириной окна. В качестве данных использовать выборку цены на хлеб или цены на электроэнергию.
Задача 4
Предсказать сорт винограда из которого сделано вино, используя https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data "wines" результаты химических анализов], c помощью KNN - метода k ближайших соседей с тремя различными метриками. Построить график зависимости величины ошибки от числа соседей k.
Задача 5
Нарисовать траекторию пошагового спуска к минимуму [|градиентного метода] и имитации отжига. Сравнить их работу при поиске мимимума [SCHWEFEL.pdf|тестовой функции].
Задача 6
Нарисовать путь наименьшей стоимости между временными рядами, найденный с помощью алгоритма DTW. Ввести ограничения на вид пути в матрице с помощью техники "Sakoe-Chiba band". Показать, что при наименьшей величине отклонения пути от диагонали при этих ограничениях стоимость DTW перейдет в евклидово расстояние. Исследовать зависимость стоимости пути от величины ограничения или же построить "анимацию" этого пути.
Задача 7
По описанию условий посева предсказать прорастут семена растений или нет. Провести бинарную классификацию семян с помощью метода Парзеновского окна. Построить график зависимости ошибки на контроле от ширины окна. Подобрать оптимальную ширину окна.
Задача 8
Классификация ядовитости грибов по основным признакам. Построить модель классификации на основе сети радиальных базисных функций. В качестве функции ошибки использовать метрику HEOM.
Задача 9
Заполнение пропусков в данных приложения Сardiomood. Сравнить различные методы заполнения пропусков [1]:
1) Метод замены пропущенного значения средним из ближайших присутствующих элементов переменной.
2) Метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам.
3) Метод восстановления пропущенного значения на основе использования Zet-алгоритма [1] .
Сравнение делать оценивая близость восстановленных "пропусков" с реальными данными.
Задача 10
2D визуализация N-мерных данных с помощью PCA. Курс "Machine Learning" на Coursera: 7_pca.m script and 2.5 part of exercise 7 [1]. Визуализировать результаты на плоскости, оценить ошибку.
Решение каждой задачи должно быть визуализировано, все рисунки необходимо кратко описать.
- С помощью логистической регрессии разделить два класса точек на плоскости. Результаты изобразить на графиках (см. пример Classification using logistic regression). Рассмотреть случаи линейно разделимой и неразделимой выборок.
- Изобразить на рисунке Парето-расслоение множества точек на плоскости. (Парето-расслоение - набор последовательно вычисляемых Парето оптимальных фронтов. Первый фронт вычисляется для полной выборки и удаляется из нее. Для оставшихся данных вычисляется следующий слой и т.д)
- Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например -means и EM, и показать сравнение результатов кластеризации на графике.
- Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным рядов и исходного ряда.
- Аппроксимация выборки замкнутой кривой [2]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Построить графики для случая когда точки лежат на окружности и нет, на графиках изобразить выборку и аппроксимирующую окружность.
- Дан временной ряд с пропусками, например [3]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить гистограмму восстановленной выборки с гистограммой исходной выборки.
- Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.
- Для различных видов зависимости (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
- Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
- Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
- Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
- Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания. На графике изобразить путь наименьшей стоимости.
- Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
- Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Выделить объекты, являющиеся выбросами, используя правило трех сигм, и отметить их на графике.
- Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графиках результаты кластеризации для различного числа кластеров, выделить кластеры разными цветами.
- Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Предложить способ визуализации решения (например, с помощью ковариационной матрицы).
- Сгенерировать выборку случайным образом и воссстановить ее плотность методом парзеновского окна. Взять несколько окон разной длины и изобразить результаты на одном рисунке. Рассмотреть различные способы порождения данных.
- Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
- Построить методом наименьших модулей уравнение регрессии 2ой степени по результатом опытов, данные прилагаются (x1,x2,x3 - переменные факторы, N - отклик). Вариант: сравнить с методом наименьших квадратов, построив на одном рисунке 2 графика (по оси абсцисс - истинные отклики, по оси ординат - результаты моделирования с помощью МНМ и МНК)
- Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Визуализировать работу regexp.
- Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
- Аппроксимировать выборку цены на хлеб полиномиальными моделями различного порядка. Построить на одном рисунке два графика: качество аппроксимации на обучении и на контроле в зависимости от степени полинома.
- Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.
- Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике.
- Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
- Дана выборка из двух классов на плоскости. Требуется разделить ее линейно и найти все объекты, которые залезли в чужой класс. Показать их на графике.
- Решается задача заполнения пропусков в социологических анкетах наиболее адекватными значениями. Основная идея: для фиксированной анкеты найти заполнить ее пропущенные поля с использованием значений соответствующих полей ближайших соседей. Задана выборка --- матрица, в которой элемент принадлежит конечному множеству допустимых значений -го поля анкеты; отметка означает пропуск в поле. На множестве задано отношение предпочтения . Например, "начальное образование" «среднее образование» «высшее образование» --- отношение линейного порядка. Требуется ввести такую функцию расстояния или метрику , которая бы обеспечивала наиболее полное восстановление пропусков, и описать процедуру восстановления. Дополнительно: изменится ли ваше решение, в случае, когда каждая анкета имеет не менее одного пропуска. Вариант: каждое поле имеет не менее одного пропуска. Вариант: значительная часть элементов матрицы пропущена.