Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)/ФУПМ, осень 2019
Материал из MachineLearning.
(→Занятие 1 (6-11 сентября)) |
(→Занятие 13 (29 ноября — 3 декабря)) |
||
(100 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} | {{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} | ||
- | + | __NOTOC__ | |
- | + | =Машинное обучение= | |
+ | ''Постановка задач и выбор моделей в машинном обучении'' | ||
+ | * Каждая '''пятница''' семестра в '''18:35''' | ||
+ | * Дополнительные материалы находятся [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|на основной странице]] | ||
* Короткий адрес этой страницы [http://bit.ly/PS-ML bit.ly/PS-ML] | * Короткий адрес этой страницы [http://bit.ly/PS-ML bit.ly/PS-ML] | ||
- | |||
- | == Занятие 1 (6 | + | == Занятие 1 (6 — 11 сентября) == |
# Подготовка инструментов: выполнить (или проверить, что владеете инструментом), | # Подготовка инструментов: выполнить (или проверить, что владеете инструментом), | ||
#* пункты '''1, 2, 4, 6, 7, 9, 11, 12 ,13''' ДЗ-1 из основной страницы, | #* пункты '''1, 2, 4, 6, 7, 9, 11, 12 ,13''' ДЗ-1 из основной страницы, | ||
Строка 20: | Строка 22: | ||
## Нарисовать дисперсию прогноза ([https://nbviewer.jupyter.org/github/Intelligent-Systems-Phystech/StartCode/blob/master/Kachkov2018LateProblem2/LateProblem2.ipynb пример полосы]). Дисперсия в каждом значении зависимой переменной вычисляется путем случайного семплирования обучающей выборки, выборка разбивается несколько раз. | ## Нарисовать дисперсию прогноза ([https://nbviewer.jupyter.org/github/Intelligent-Systems-Phystech/StartCode/blob/master/Kachkov2018LateProblem2/LateProblem2.ipynb пример полосы]). Дисперсия в каждом значении зависимой переменной вычисляется путем случайного семплирования обучающей выборки, выборка разбивается несколько раз. | ||
## Дополнительно*: предложить способ порождения новых (признаков) моделей. | ## Дополнительно*: предложить способ порождения новых (признаков) моделей. | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
'''Материалы''' | '''Материалы''' | ||
* [[Media:Strijov2019PS-Intro.pdf|Вводные слайды]] | * [[Media:Strijov2019PS-Intro.pdf|Вводные слайды]] | ||
Строка 36: | Строка 34: | ||
Прочитать, чем '''[https://stackoverflow.com/questions/5009600/difference-between-fork-and-branch-on-github отличается branch от fork]''' | Прочитать, чем '''[https://stackoverflow.com/questions/5009600/difference-between-fork-and-branch-on-github отличается branch от fork]''' | ||
- | == Занятие 2 (13 | + | '''Анкета''' |
- | + | * [https://forms.gle/RCRs2RBJxP8Rv5vD6 Анкета "'''записаться на курс'''"] (стоит отдельно от основной по просьбе робота. Внимание работает только под @phystech.edu и только один раз) | |
- | * '''видео-стрим''' семинара | + | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (стоит отдельно от основной. нужна для того, чтобы собрать название папок GitHub где Вы выполнили задание) |
- | * | + | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (стоит отдельно от основной. нужна для того, чтобы собрать рецензии людей) |
- | * | + | * [https://forms.gle/YyCBiD852y59QVdC7 Анкета с вопросами на повторение] (основная) |
+ | |||
+ | |||
+ | == Занятие 2 (13 — 18 сентября) == | ||
+ | * [https://youtu.be/c7oTaoDgh4Y '''видео-стрим''' семинара] | ||
+ | * [https://t.me/Qs_ML ссылка на телеграм для вопросов] | ||
+ | |||
+ | '''Задание''' | ||
+ | # Загрузить выборку (из прежнего задания, или из UCI, или на ваш вкус), нормировать признаки. | ||
+ | # Для линейной модели (на выбор: модель регрессии или классификации) | ||
+ | #* написать генетический алгоритм выбора признаков (или другой, по вашему выбору). | ||
+ | # Построить графики зависимости, | ||
+ | ## ось абсцисс: итерации, <!-- x-axis is iteration --> | ||
+ | ## ось ординат: функция ошибки ''S'' и ее стандартное отклонение (обучающая и тестовая выборка), <!-- y-axis is the error function S, train test, std--> | ||
+ | ## ось ординат: параметны модели "лапша" (желательно стандартное отклонение), <!-- y-axis is “noodle” of the parameters, std --> | ||
+ | ## дополнительно, ось ординат: структура модели, индикаторная вектор-функция. <!-- y-axis is the structure indicator function --> | ||
+ | # Задание делать в той же папке [https://github.com/Intelligent-Systems-Phystech/2019-StartCode 2019-StartCode] | ||
+ | # Дополнительно: применить генетический алгоритм к выбору двухслойной нейросети и нарисовать те же графики и кривую обучения нейросети. | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019FeatureSelection.pdf|Выбор признаков]] | ||
+ | * [[Media:Strijov20192NNUniversalModel.pdf|Структура нейросети]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/LdnZSmjJWVTzZTAYA Анкета с вопросами] (основная. дедлайн 19.09.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub со 2м заданием. дедлайн 19.09.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 20.09.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 3 (20 — 25 сентября) == | ||
+ | * [https://youtu.be/snESVZdqY7Q видео-стрим семинара] | ||
+ | * [https://t.me/Qs_ML телеграм для вопросов] | ||
+ | |||
+ | '''Задание''' | ||
+ | # Выбрать проект на свой вкус, и записать его план (pdf) в следующем виде: | ||
+ | ## название и ответы на вопросы (написать, от лица эксперта или аналитика), | ||
+ | ## схема в формате IDEF0. | ||
+ | # Детализация проекта такова, что план понятен непосвященному читателю. | ||
+ | # Рисовать можно любым инструментом, включая карандаш. | ||
+ | # Задание загрузить в папку [https://github.com/Intelligent-Systems-Phystech/2019-IDEF0 2019-IDEF0] в файле '''Surname2019Projname.pdf''' | ||
+ | (В качестве проекта можно взять алгоритм выбора модели NN-AE из второй части этого семинара). | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019IDEF0.pdf|Стандарт IDEF при планировании проектов]] | ||
+ | * [[Media:Strijov2019Autoencoder.pdf|Автоэнкодер и нейросеть]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/DnwhGLbTSrgrrFaq7 Анкета с вопросами] (основная. дедлайн 26.09.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с 3м заданием. дедлайн 27.09.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 27.09.2019 16:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 4 (27 сентября — 2 октября) == | ||
+ | * [https://youtu.be/fSIPU3aZjLs видео-стрим семинара] | ||
+ | * телеграм для вопросов там же | ||
+ | |||
+ | '''Задание''' | ||
+ | # В файле main.ipynb от первого задания добавить раздел с новым вычислительным экспериментом "порождение метрических признаков" | ||
+ | ## выборка та же, на ваш выбор, | ||
+ | ## задача регрессии или классификации, на ваш выбор, | ||
+ | ## кластеризовать, вычислить центры кластеров, | ||
+ | ## набор признаков: вычислить расстояние от каждого объекта выборки до центра каждого кластера. | ||
+ | # Сравнить качество, полученное линейной моделью по исходным и по метрическим признакам. | ||
+ | # Построить график зависимости качества модели от числа кластеров. | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Zhuikov2015MSPresentation.pdf|Построение рекомендательной системы, метрический подход]] | ||
+ | * [[Media:Strijov2019MetricsLearnig.pdf|Метрическое обучение]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/4SVake6dkpLWawPMA Анкета с вопросами] (основная. дедлайн 03.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с 4м заданием. дедлайн 03.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 04.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 5 (4 октября — 9 октября) == | ||
+ | * [https://youtu.be/pcP2T274Ltw видео-стрим семинара] | ||
+ | * телеграм для вопросов там же | ||
+ | |||
+ | '''Задание''' | ||
+ | # В папке от первого задания добавить ноутбук var_analysis.ipynb с вычислительным экспериментом "визуализация пространства параметров" | ||
+ | #* выборка та же, на ваш выбор, | ||
+ | #* задача регрессии или классификации, на ваш выбор, | ||
+ | # написать процедуру bootstrep, которая возвращает К выборок того же объема, что и обучающая, | ||
+ | ## для каждой выборки настроить параметры, | ||
+ | ## вычислить ожидание параметров, дисперсию и ковариацию параметров, ожидание ошибки, дисперсию ошибки. | ||
+ | # (Дополнительно) для фиксированного числа признаков построить график зависимости ожидания и дисперсии ошибки от объема выборки. | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019VisualVariance.pdf|Визуальный анализ признакового пространства и объема выборки]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/4J9UEXqZHheHCuW58 Анкета с вопросами] (основная. дедлайн 10.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с 4м заданием. дедлайн 10.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 11.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 6 (11 октября — 16 октября) == | ||
+ | * [https://youtu.be/CYOaa4_DqlI видео-стрим семинара] | ||
+ | * телеграм для вопросов там же | ||
+ | |||
+ | '''Задание''' | ||
+ | # В папке от первого задания добавить ноутбук isotonic.ipynb с вычислительным экспериментом "ранговая регрессия", | ||
+ | #* выборка на ваш выбор, [https://sourceforge.net/p/mvr/code/HEAD/tree/data/HybridCarsComparison.xls?format=raw или эта] (про автомобили), | ||
+ | #* сами, как эксперты, выставьте рейтинг объектов (автомобилей) и признаков (их технических характеристик), | ||
+ | #* требуется решить задачу изотонической регрессии. | ||
+ | # Нарисовать график зависимости вычисленных параметров от выставленных при различных значениях регуляризатора: | ||
+ | ## несколько графиков плоских, либо | ||
+ | ## один трехмерный, по оси ординат регуляризатор, по оси аппликат - восстановленные веса, по оси абсцисс - выставленные. | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019Indicators1.pdf|Построение интегральных индикаторов]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/JWFyLEr4QsrrtRtY6 Анкета с вопросами] (основная. дедлайн 17.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 17.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 18.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 7 (18 октября — 23 октября) == | ||
+ | * [https://youtu.be/kseUYk74D0c видео-стрим семинара] | ||
+ | |||
+ | |||
+ | '''Задание''' | ||
+ | # Написать эссе-постановку задачи построения монотонной модели классификации | ||
+ | #* задан признак, от которого целевая переменная зависит немонотонно, | ||
+ | #* требуется его изменить так, чтобы зависимость от новых признаков была монотонной, | ||
+ | #* допустимы только кусочно-линейные параметрические отображения. | ||
+ | # Постановка задачи должна включать две подзадачи оптимизации: | ||
+ | ## оптимизация параметров кусочно-линейной функции, | ||
+ | ## оптимизация параметров монотонной модели (логистическая ререссия, например). | ||
+ | # Дополнительно, с усложнением: | ||
+ | ## и еще задан набор признаков, от которых целевая переменная зависит монотонно (и даже выполнено условие tbtb), | ||
+ | ## добавить еще одну оптимизационную задачу с выбором оптимального набора признаков. | ||
+ | # Постановка задачи должна быть такова, чтобы по тексту легко и однозначно было бы возможно написать код. | ||
+ | # Ставить задачу можно любым инструментом, включая карандаш (но Latex предпочтителен). | ||
+ | # Задание загрузить в папку [https://github.com/Intelligent-Systems-Phystech/2019-Essay 2019-Essay] в файлах '''Surname2019Picewise.pdf''' и '''.tex''' | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019ProblemStatement.pdf|Постановка задач, введение]] | ||
+ | * [[Media:Strijov2019Notations.pdf|Система обозначений для постановки задач]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/ZASk7hLX7XSBx4Y49 Анкета с вопросами] (основная. дедлайн 24.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 24.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 25.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | |||
+ | == Занятие 8 (25 октября — 30 октября) == | ||
+ | * [https://youtu.be/YEwYblYdwVY видео-стрим семинара] | ||
+ | |||
+ | |||
+ | '''Задание''' | ||
+ | # Написать эссе с описанием задачи построения суперпозиции: | ||
+ | #* найти пример из практики, интересный лично вам, в котором предполанаемая модель получается путем построения суперпозиции порождающих функций (функций-примитивов), | ||
+ | #* назвать проект, | ||
+ | #* кратко описать суть (несколько предложений), | ||
+ | #* указать множество моделей из который будет выбираться оптимальная (или перечислить функции-примитивы), | ||
+ | #* по возможности, указать критерий качества модели. | ||
+ | # Текст должен быть кратким и ясным, желательно не больше трети страницы, лучше меньше. | ||
+ | # Задание загрузить в папку [https://github.com/Intelligent-Systems-Phystech/2019-Essay 2019-Essay] в файлах '''Surname2019Symbolic.pdf''' и '''.tex''' | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019Option.pdf|Моделирование европейского опциона]] | ||
+ | * [[Media:Strijov2019Symbolic_Short.pdf|Символьная регрессия]] | ||
+ | * [[Media:PresentationKulunchakov2017Ranking.pdf|Ранжирующие модели информационного поиска]] | ||
+ | * [http://www.mathnet.ru/links/8e058ba57f61638299c37e6e4d9723a7/ia474.pdf Пример проекта из ДЗ. В разделе 5 см. моделирование зависимости интенсивности излучения лазера от прозрачности его резонатора.] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/8DPPXZnPKKAavp8G6 Анкета с вопросами] (основная. дедлайн 31.10.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 01.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 01.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | |||
+ | == Занятие 9 (1 ноября — 5 ноября) == | ||
+ | * [https://youtu.be/fo4lsuYaLaA видео-стрим семинара] | ||
+ | |||
+ | |||
+ | '''Задание''' (прошлый вариант задания перенесен на неделю вперед, поэтому задание будет простым) | ||
+ | # В папке и файле '''main.ipynb''' от первого задания, после графиков дисперсии ошибки | ||
+ | #* построить гистограмму регрессионных остатков, | ||
+ | #* найти подходящий статистический текст и с его помощью | ||
+ | #* проверить вектор регрессионных остатков на нормальность, | ||
+ | #* сравнить визуальный результат и резульат теста. | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019TimeSeries.pdf|Прогнозирование и классификация временных рядов]], и короткое [[Media:Strijov2019TimeSeries2.pdf|приложение]] | ||
+ | * [[Media:Uvarov2018PresentationCut.pdf|Прогнозирование ошибки]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/mBpLDHM8ypHkMQHz8 Анкета с вопросами] (основная. дедлайн 07.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 08.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 08.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 10 (8 ноября — 12 ноября) == | ||
+ | * [https://youtu.be/y_ZriJMEfyw видео-стрим семинара] | ||
+ | |||
+ | '''Задание''' | ||
+ | # В папке от первого задания добавить ноутбук trajectory.ipynb с вычислительным экспериментом "визуализация фазовой траектории", | ||
+ | #* выбрать периодический [[Временной ряд (библиотека примеров)|временной ряд из коллекции]], | ||
+ | #* выбрать несколько периодов ряда, | ||
+ | # построить матрицу Ганкеля, в которой два отсчета в предыстории, | ||
+ | #* написовать полученный график на плоскости | ||
+ | # (остальное задание уходит на следующую неделю, 15 ноября) | ||
+ | #* построить матрицу Ганкеля, в которой период или два периода в предыстории, | ||
+ | #* cделать ее сингулярное разложение, | ||
+ | #* нарисовать пару главных компонент (на выбор, необязательно первые) на плоском графике, | ||
+ | #* или тройку главных компонент на трех осях. | ||
+ | # Прокомментировать коротким текстом, что читатель видит на графике (например, какой тип движения). | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Stenina2015PresentationCut.pdf|Иерархическое прогнозирование]] | ||
+ | * [[Media:Usmanova2018PresentationCut.pdf|Обнаружение зависимостей]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/vNeGpApciUut2D9a7 Анкета с вопросами] (основная. дедлайн 14.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 15.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 15.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 11 (15 ноября — 20 ноября) == | ||
+ | * [https://youtu.be/_tOQtaTrNqk видео-стрим семинара] | ||
+ | |||
+ | '''Задание (старое)''' | ||
+ | # Доделать задание предыдущей недели. | ||
+ | |||
+ | '''Задание''' | ||
+ | Написать эссе - запрос на постановку задачи, которое (по возможности) включает: | ||
+ | * цель, которую требуется достичь, | ||
+ | * описание данных, | ||
+ | * экспертные предположения о задаче, | ||
+ | * предполагаемую модель, | ||
+ | * критерий качества. | ||
+ | * Задание загрузить в папку 2019-Essay в файлах Surname2019ProjectRequest.pdf и .tex | ||
+ | Все эссе будут разобраны с целью постановки задачи на одном из следующих занятий. Считайте это консультацией по интересующей вас теме. | ||
+ | |||
+ | '''Материалы''' | ||
+ | * [[Media:Strijov2019ECoGaccel.pdf|Анализ поведения]] | ||
+ | * [[Media:Ivanychev2018Slides_cut.pdf|Локальное моделирование]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/dhVwqvD9pMWj9XTe7 Анкета с вопросами] (основная. дедлайн 21.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 22.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 22.11.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 12 (15 ноября — 20 ноября) == | ||
+ | * [https://youtu.be/NZEqmjMvaII видео-стрим семинара] | ||
+ | |||
+ | '''Задание''' | ||
+ | # Написать эссе - анализ наиболее перспективных (или бесперсективных) трендов развития области машинного обучения в ближайшее время, ваше мнение. | ||
+ | #* Например, организаторы OpenTalks.ai, по моему мнению, видят развитие в Обучении с подкреплением. Специлисты говорят, что метод имеет ряд недостатков, затрудняющих получение адекватных моделей (от вас ожидаетя обоснование почему). | ||
+ | #* Например, я считаю, что Атаки на ГАНы - тема бесперспективная, несмотря на большое число публикаций и проблема разрешается повышением усточивости сети за счет существенного снижения сложности (почему). | ||
+ | #* Например, я считаю, что применение байесовских подходов в теории игр - тема перспективная (привести примеры, сказать почему). | ||
+ | #* Например, я считаю, что SinGAN и обучение по малой выборке является перспективной задачей (что это такое, почему). | ||
+ | # Объем текста - один-два абзаца с обоснованием тренда (трендов). | ||
+ | # Задание загрузить в папку 2019-Essay в файлах Surname2019ProjectHype.pdf и .tex | ||
+ | Все эссе будут разобраны с целью постановки задачи на одном из следующих занятий. Считайте это консультацией по интересующей вас теме. | ||
+ | |||
+ | '''Материалы''' | ||
+ | |||
+ | * [[Media:Strijov2019Control.pdf|Управление с обратной связью в машинном обучении]] | ||
+ | * [[Media:Katrutsa2016BSPresentation_cut.pdf|Тестирование алгоритмов выбора признаков]] | ||
+ | * [[Media:Katrutsa2016MSPresentation_cut.pdf|Квадратичный выбор призанков]] | ||
+ | |||
+ | '''Анкета''' | ||
+ | * [https://forms.gle/xbYupohCdhWSHG2L8 Анкета с вопросами] (основная. дедлайн 05.12.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 05.12.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 26.12.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 13 (29 ноября — 3 декабря) == | ||
+ | {{tip| | ||
+ | Ссылки: | ||
+ | * [https://youtu.be/yXsoYcPj72k видео-стрим семинара] | ||
+ | * телеграм для вопросов там же}} | ||
+ | |||
+ | '''Задание''' | ||
+ | # На повторение теории курса. Центральные теоремы машинного обучения. | ||
+ | ## Выбрать три теоремы, которые упоминал К.В. Воронцов или другие преподаватели курсов машинного обучения (или на ваш выбор те, которые внесли значимый вклад в теорию машинного обучения). | ||
+ | ## Найти оригинальную работу или хорошую обобщающую работу с формулировкой и доказательством каждой теоремы. | ||
+ | ## Сформулировать краико своими словами центральное сообщение теоремы (чет короче, тем лучше, 1--3 предложения). | ||
+ | ## Указать источник цитирования. | ||
+ | # Задание загрузить в папку 2019-Essay в файлах Surname2019Theorems.pdf и .tex | ||
+ | |||
+ | '''Материалы''' | ||
+ | |||
+ | * Разбор вопросов в анкетах из домашних заданий, часть 1 | ||
+ | * Об управлении в научных исследованиях | ||
+ | |||
+ | '''Анкета''' | ||
+ | * | ||
+ | * [https://forms.gle/EFjLLr27jJdBAheB9 Анкета '''"сдача задания'''"] (для указание папки на GitHub с заданием. дедлайн 12.12.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | * [https://forms.gle/bAjdzDthU1QcGEpt8 Анкета '''"рецензия'''"] (собрать результаты людей. дедлайн 13.12.2019 9:00. доступна только с почты @phystech.edu) | ||
+ | |||
+ | == Занятие 14 (6 — 10 декабря) == | ||
+ | {{tip| | ||
+ | Семинар сегодня будет в hangouts: | ||
+ | * [https://hangouts.google.com/call/o41qQ6iz1_53ythXCDnuAEEI видео-стрим семинара] | ||
+ | * телеграм для вопросов там же}} | ||
+ | |||
+ | '''Задание''' | ||
+ | #Семинар посвящен планированию научного исследования. Задание будет сформулировано после семинара в субботу. | ||
+ | ## (Предварительно) составить список ограничений и ошибок в пространстве параметров нейросети. | ||
+ | ## | ||
+ | # Задание загрузить в папку 2019-Essay в файлах Surname2019ModelSelection.pdf и .tex | ||
+ | |||
+ | '''Материалы''' | ||
+ | |||
+ | * [https://arxiv.org/abs/1711.03190 Learning Credible Models] | ||
+ | * [[Media:Potanin2019NNStructure.pdf|Оптимизация структуры сетей глубокого обучения]] | ||
+ | |||
+ | '''Анкета''' |
Версия 15:20, 6 декабря 2019
Машинное обучение
Постановка задач и выбор моделей в машинном обучении
- Каждая пятница семестра в 18:35
- Дополнительные материалы находятся на основной странице
- Короткий адрес этой страницы bit.ly/PS-ML
Занятие 1 (6 — 11 сентября)
- Подготовка инструментов: выполнить (или проверить, что владеете инструментом),
- пункты 1, 2, 4, 6, 7, 9, 11, 12 ,13 ДЗ-1 из основной страницы,
- пункты 4, 5 ДЗ-2.
- Получить доступ к https://github.com/Intelligent-Systems-Phystech/
- В папке 2019-StartCode создать папку ДЗ Surname2019Linear и файл main.ipynb
- В тетради кратко указать название и цель эксперимента.
- Загрузить выборку
- Построить несколько моделей (пример).
- Нарисовать график прогноза (оформление: пример 1, пример 2).
- Нарисовать дисперсию прогноза (пример полосы). Дисперсия в каждом значении зависимой переменной вычисляется путем случайного семплирования обучающей выборки, выборка разбивается несколько раз.
- Дополнительно*: предложить способ порождения новых (признаков) моделей.
Материалы
Советы по пользованию репозиторием
- GitHub: клонируйте мастер и заливайте правки в него, если работаете только со своим кодом. См. краткое руководство по работе с GitHub.
- Update first, Commit after (Pull first, Push after)
- Your own work only, no external publications
- No big files (put link to external datasets)
- No temporary nor dummy files
Прочитать, чем отличается branch от fork
Анкета
- Анкета "записаться на курс" (стоит отдельно от основной по просьбе робота. Внимание работает только под @phystech.edu и только один раз)
- Анкета "сдача задания" (стоит отдельно от основной. нужна для того, чтобы собрать название папок GitHub где Вы выполнили задание)
- Анкета "рецензия" (стоит отдельно от основной. нужна для того, чтобы собрать рецензии людей)
- Анкета с вопросами на повторение (основная)
Занятие 2 (13 — 18 сентября)
Задание
- Загрузить выборку (из прежнего задания, или из UCI, или на ваш вкус), нормировать признаки.
- Для линейной модели (на выбор: модель регрессии или классификации)
- написать генетический алгоритм выбора признаков (или другой, по вашему выбору).
- Построить графики зависимости,
- ось абсцисс: итерации,
- ось ординат: функция ошибки S и ее стандартное отклонение (обучающая и тестовая выборка),
- ось ординат: параметны модели "лапша" (желательно стандартное отклонение),
- дополнительно, ось ординат: структура модели, индикаторная вектор-функция.
- Задание делать в той же папке 2019-StartCode
- Дополнительно: применить генетический алгоритм к выбору двухслойной нейросети и нарисовать те же графики и кривую обучения нейросети.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 19.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub со 2м заданием. дедлайн 19.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 20.09.2019 9:00. доступна только с почты @phystech.edu)
Занятие 3 (20 — 25 сентября)
Задание
- Выбрать проект на свой вкус, и записать его план (pdf) в следующем виде:
- название и ответы на вопросы (написать, от лица эксперта или аналитика),
- схема в формате IDEF0.
- Детализация проекта такова, что план понятен непосвященному читателю.
- Рисовать можно любым инструментом, включая карандаш.
- Задание загрузить в папку 2019-IDEF0 в файле Surname2019Projname.pdf
(В качестве проекта можно взять алгоритм выбора модели NN-AE из второй части этого семинара).
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 26.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с 3м заданием. дедлайн 27.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 27.09.2019 16:00. доступна только с почты @phystech.edu)
Занятие 4 (27 сентября — 2 октября)
- видео-стрим семинара
- телеграм для вопросов там же
Задание
- В файле main.ipynb от первого задания добавить раздел с новым вычислительным экспериментом "порождение метрических признаков"
- выборка та же, на ваш выбор,
- задача регрессии или классификации, на ваш выбор,
- кластеризовать, вычислить центры кластеров,
- набор признаков: вычислить расстояние от каждого объекта выборки до центра каждого кластера.
- Сравнить качество, полученное линейной моделью по исходным и по метрическим признакам.
- Построить график зависимости качества модели от числа кластеров.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 03.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с 4м заданием. дедлайн 03.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 04.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 5 (4 октября — 9 октября)
- видео-стрим семинара
- телеграм для вопросов там же
Задание
- В папке от первого задания добавить ноутбук var_analysis.ipynb с вычислительным экспериментом "визуализация пространства параметров"
- выборка та же, на ваш выбор,
- задача регрессии или классификации, на ваш выбор,
- написать процедуру bootstrep, которая возвращает К выборок того же объема, что и обучающая,
- для каждой выборки настроить параметры,
- вычислить ожидание параметров, дисперсию и ковариацию параметров, ожидание ошибки, дисперсию ошибки.
- (Дополнительно) для фиксированного числа признаков построить график зависимости ожидания и дисперсии ошибки от объема выборки.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 10.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с 4м заданием. дедлайн 10.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 11.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 6 (11 октября — 16 октября)
- видео-стрим семинара
- телеграм для вопросов там же
Задание
- В папке от первого задания добавить ноутбук isotonic.ipynb с вычислительным экспериментом "ранговая регрессия",
- выборка на ваш выбор, или эта (про автомобили),
- сами, как эксперты, выставьте рейтинг объектов (автомобилей) и признаков (их технических характеристик),
- требуется решить задачу изотонической регрессии.
- Нарисовать график зависимости вычисленных параметров от выставленных при различных значениях регуляризатора:
- несколько графиков плоских, либо
- один трехмерный, по оси ординат регуляризатор, по оси аппликат - восстановленные веса, по оси абсцисс - выставленные.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 17.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 17.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 18.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 7 (18 октября — 23 октября)
Задание
- Написать эссе-постановку задачи построения монотонной модели классификации
- задан признак, от которого целевая переменная зависит немонотонно,
- требуется его изменить так, чтобы зависимость от новых признаков была монотонной,
- допустимы только кусочно-линейные параметрические отображения.
- Постановка задачи должна включать две подзадачи оптимизации:
- оптимизация параметров кусочно-линейной функции,
- оптимизация параметров монотонной модели (логистическая ререссия, например).
- Дополнительно, с усложнением:
- и еще задан набор признаков, от которых целевая переменная зависит монотонно (и даже выполнено условие tbtb),
- добавить еще одну оптимизационную задачу с выбором оптимального набора признаков.
- Постановка задачи должна быть такова, чтобы по тексту легко и однозначно было бы возможно написать код.
- Ставить задачу можно любым инструментом, включая карандаш (но Latex предпочтителен).
- Задание загрузить в папку 2019-Essay в файлах Surname2019Picewise.pdf и .tex
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 24.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 24.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 25.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 8 (25 октября — 30 октября)
Задание
- Написать эссе с описанием задачи построения суперпозиции:
- найти пример из практики, интересный лично вам, в котором предполанаемая модель получается путем построения суперпозиции порождающих функций (функций-примитивов),
- назвать проект,
- кратко описать суть (несколько предложений),
- указать множество моделей из который будет выбираться оптимальная (или перечислить функции-примитивы),
- по возможности, указать критерий качества модели.
- Текст должен быть кратким и ясным, желательно не больше трети страницы, лучше меньше.
- Задание загрузить в папку 2019-Essay в файлах Surname2019Symbolic.pdf и .tex
Материалы
- Моделирование европейского опциона
- Символьная регрессия
- Ранжирующие модели информационного поиска
- Пример проекта из ДЗ. В разделе 5 см. моделирование зависимости интенсивности излучения лазера от прозрачности его резонатора.
Анкета
- Анкета с вопросами (основная. дедлайн 31.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 01.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 01.11.2019 9:00. доступна только с почты @phystech.edu)
Занятие 9 (1 ноября — 5 ноября)
Задание (прошлый вариант задания перенесен на неделю вперед, поэтому задание будет простым)
- В папке и файле main.ipynb от первого задания, после графиков дисперсии ошибки
- построить гистограмму регрессионных остатков,
- найти подходящий статистический текст и с его помощью
- проверить вектор регрессионных остатков на нормальность,
- сравнить визуальный результат и резульат теста.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 07.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 08.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 08.11.2019 9:00. доступна только с почты @phystech.edu)
Занятие 10 (8 ноября — 12 ноября)
Задание
- В папке от первого задания добавить ноутбук trajectory.ipynb с вычислительным экспериментом "визуализация фазовой траектории",
- выбрать периодический временной ряд из коллекции,
- выбрать несколько периодов ряда,
- построить матрицу Ганкеля, в которой два отсчета в предыстории,
- написовать полученный график на плоскости
- (остальное задание уходит на следующую неделю, 15 ноября)
- построить матрицу Ганкеля, в которой период или два периода в предыстории,
- cделать ее сингулярное разложение,
- нарисовать пару главных компонент (на выбор, необязательно первые) на плоском графике,
- или тройку главных компонент на трех осях.
- Прокомментировать коротким текстом, что читатель видит на графике (например, какой тип движения).
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 14.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 15.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 15.11.2019 9:00. доступна только с почты @phystech.edu)
Занятие 11 (15 ноября — 20 ноября)
Задание (старое)
- Доделать задание предыдущей недели.
Задание Написать эссе - запрос на постановку задачи, которое (по возможности) включает:
- цель, которую требуется достичь,
- описание данных,
- экспертные предположения о задаче,
- предполагаемую модель,
- критерий качества.
- Задание загрузить в папку 2019-Essay в файлах Surname2019ProjectRequest.pdf и .tex
Все эссе будут разобраны с целью постановки задачи на одном из следующих занятий. Считайте это консультацией по интересующей вас теме.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 21.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 22.11.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 22.11.2019 9:00. доступна только с почты @phystech.edu)
Занятие 12 (15 ноября — 20 ноября)
Задание
- Написать эссе - анализ наиболее перспективных (или бесперсективных) трендов развития области машинного обучения в ближайшее время, ваше мнение.
- Например, организаторы OpenTalks.ai, по моему мнению, видят развитие в Обучении с подкреплением. Специлисты говорят, что метод имеет ряд недостатков, затрудняющих получение адекватных моделей (от вас ожидаетя обоснование почему).
- Например, я считаю, что Атаки на ГАНы - тема бесперспективная, несмотря на большое число публикаций и проблема разрешается повышением усточивости сети за счет существенного снижения сложности (почему).
- Например, я считаю, что применение байесовских подходов в теории игр - тема перспективная (привести примеры, сказать почему).
- Например, я считаю, что SinGAN и обучение по малой выборке является перспективной задачей (что это такое, почему).
- Объем текста - один-два абзаца с обоснованием тренда (трендов).
- Задание загрузить в папку 2019-Essay в файлах Surname2019ProjectHype.pdf и .tex
Все эссе будут разобраны с целью постановки задачи на одном из следующих занятий. Считайте это консультацией по интересующей вас теме.
Материалы
- Управление с обратной связью в машинном обучении
- Тестирование алгоритмов выбора признаков
- Квадратичный выбор призанков
Анкета
- Анкета с вопросами (основная. дедлайн 05.12.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 05.12.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 26.12.2019 9:00. доступна только с почты @phystech.edu)
Занятие 13 (29 ноября — 3 декабря)
Ссылки:
|
Задание
- На повторение теории курса. Центральные теоремы машинного обучения.
- Выбрать три теоремы, которые упоминал К.В. Воронцов или другие преподаватели курсов машинного обучения (или на ваш выбор те, которые внесли значимый вклад в теорию машинного обучения).
- Найти оригинальную работу или хорошую обобщающую работу с формулировкой и доказательством каждой теоремы.
- Сформулировать краико своими словами центральное сообщение теоремы (чет короче, тем лучше, 1--3 предложения).
- Указать источник цитирования.
- Задание загрузить в папку 2019-Essay в файлах Surname2019Theorems.pdf и .tex
Материалы
- Разбор вопросов в анкетах из домашних заданий, часть 1
- Об управлении в научных исследованиях
Анкета
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 12.12.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 13.12.2019 9:00. доступна только с почты @phystech.edu)
Занятие 14 (6 — 10 декабря)
Семинар сегодня будет в hangouts:
|
Задание
- Семинар посвящен планированию научного исследования. Задание будет сформулировано после семинара в субботу.
- (Предварительно) составить список ограничений и ошибок в пространстве параметров нейросети.
- Задание загрузить в папку 2019-Essay в файлах Surname2019ModelSelection.pdf и .tex
Материалы
Анкета