MIPT ML 2016 Spring

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Арсений Ашуха / Вторник 09:00 - 10:25)
(Содержимое страницы заменено на «= Страница купса переехала сюда https://ml-mipt.github.io/ =»)
 
(24 промежуточные версии не показаны)
Строка 1: Строка 1:
-
[[Изображение:Ya-Icon-new-size.jpg|thumb]] В курсе рассматриваются основные задачи обучения по прецедентам: [[классификация]], [[кластеризация]], [[регрессия]]. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами. Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом '''ACM/IEEE Computing Curricula 2001''' по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).
+
= Страница купса переехала сюда https://ml-mipt.github.io/ =
-
 
+
-
Семинарская часть курса ставит перед сабой задачи: научить студента видеть задачи машинного обучения в реальной жизни, применять изученные матоды для решения задач машинного обучения, при необходимости реализовать необходимый метод.
+
-
 
+
-
'''Лекторы''': Анастасия Зухба, проф. Константин Воронцов.
+
-
 
+
-
'''Семинаристы''': Алексей Романенко, Борис Коваленко, Ашуха Арсений, Малых Валентин, Никита Волков
+
-
 
+
-
Все вопросы по курсу можно задать через систему [https://piazza.com/phystech/ml101 piazza].
+
-
 
+
-
Анонимные отзывы по курсу можно отправить [https://docs.google.com/forms/d/1U60EFqZ7j-Eib_-tB3lZLWxlZElui_1Qj_E_yH7hFWE/viewform?usp=send_form тут]
+
-
 
+
-
== Расписание Лекций ==
+
-
{| class="standard"
+
-
!Дата !! № занятия !! Занятие !! Материалы
+
-
|-
+
-
|12 февраля 2016 || align="center"| 1 || Задачи обучения по прецедентам. Supervised, unsupervised и semi-supervised обучение. Понятия переобучения и обобщающей способности. Скользящий контроль (cross-validation). || [https://www.dropbox.com/s/gxtdh04m6rtczh4/Lek1.pdf?dl=0 Лекция1]
+
-
|-
+
-
|17 февраля 2016 || align="center"|2 || Метрические алгоритмы классификации. Обобщённый метрический классификатор, понятие отступа. Метод ближайших соседей (kNN) и его обобщения. Подбор числа k по критерию скользящего контроля. Отбор эталонных объектов. алгоритм СТОЛП. || [https://yadi.sk/d/biFmfbDqoynDW Лекция 2]
+
-
|-
+
-
|24 февраля 2016 || align="center"|3 || Построение метрик и отбор признаков. Стандартные метрики. Оценивание качества метрики. Проклятие размерности. Жадный алгоритм отбора признаков. || [https://yadi.sk/d/up_fqfOApRAGs Лекция 3]
+
-
|-
+
-
|2 марта 2016 || align="center"|4 || Логические закономерности. Статистический критерий информативности Ic(',Xl): смысл и способы вычисления. Энтропийный критерий информативности, информационный выигрыш IGainc(',Xl). Многоклассовые варианты критериев. Индекс Gini. Задача перебора конъюнкций. “Градиентный” алгоритм синтеза конъюнкций и его частные случаи: жадный алгоритм, стохастический локальный поиск, стабилизация, редукция. || [https://drive.google.com/open?id=0B-3LhgkjkY_OQ20tbjZUamVPR0E Лекция 4-5]
+
-
|-
+
-
|9 марта 2016 || align="center"|5 || Бинаризация признаков, алгоритм выделения информативных зон. Решающие списки. Решающие деревья: принцип работы. Разбиение пространства объектов на подмножества, выделяемые конъюнкциями терминальных вершин. Алгоритм ID3. Пре-прунинг и пост-прунинг. || [https://drive.google.com/open?id=0B-3LhgkjkY_OQ20tbjZUamVPR0E Лекция 4-5]
+
-
|-
+
-
|16 марта 2016 || align="center"|6 || Знакомство с идеей композиции алгоритмов. Random Forest, Беггинг, RSM, стекинг. ||
+
-
 
+
-
[https://drive.google.com/open?id=0B-3LhgkjkY_OeDRlei1KUHJuUW8 Лекция 6]
+
-
|-
+
-
|23 марта 2016 || align="center"|7 || Линейная классификация. Непрерывные аппроксимации пороговой функции потерь. Метод минимизации аппроксимированного эмпирического риска. SG, SAG. Связь минимизации аппроксимированного эмпирического риска и максимизации совместного правдоподобия данных и модели. Регуляризация (l1, l2, elastic net). Вероятностный смысл регуляризаторов. Примеры различных функций потерь и классификаторов. Эвристический вывод логистической функции потерь. ||
+
-
 
+
-
[https://drive.google.com/open?id=0B-3LhgkjkY_ORHFUVjl2RnZjZm8 Лекция 7]
+
-
|-
+
-
|30 марта 2016 || align="center"|8 || Метод опорных векторов. Оптимизационная задача с ограничениями в виде неравенств и безусловная. Опорные векторы. Kernel trick. ||
+
-
[https://drive.google.com/open?id=0B-3LhgkjkY_OU19qVklvUm1oOFE Лекция 8]
+
-
|-
+
-
|6 апреля 2016 || align="center"|9 || Задача снижения размерности пространства признаков. Идея метода главных компонент
+
-
(PCA). Связь PCA и сингулярного разложения матрицы признаков (SVD). Вычисление SVD в пространствах высокой размерности методом стохастического градиента (SG SVD). Многомерная линейная регрессия. Геометрический и аналитический вывод. Регуляризация в задаче регрессии. Непараметрическая регрессия. Формула Надарая-Ватсона. Регрессионные деревья.||
+
-
|-
+
-
|13 апреля 2016 || align="center"|10 ||Байесовская классификация. Функционал риска и функционал среднего риска. Оптимальный байесовский классификатор и теорема о минимизации среднего риска. Наивный байесовский классификатор. Восстановление плотности: параметрический и непараметрический подход. Метод Парзеновского окна. Параметрический подход на примере нормального дискриминантного анализа. Линейный дискриминант Фишера.||
+
-
[https://drive.google.com/open?id=0B-3LhgkjkY_ORDYzX05PaFdIaE0 Лекция 10]
+
-
|-
+
-
|20 апреля 2016 || align="center"|11 || Байесовская классификация и регрессия. Восстановление смеси распределений. Логистическая регрессия.||
+
-
|-
+
-
|27 апреля 2016 || align="center"|12 || Задача кластеризации. Аггломеративная и дивизионная кластеризация. Алгоритмы k-Means. Кластеризация с помощью EM-алгоритма (без вывода M-шага). Формула Ланса-Уилльямса. ||
+
-
|-
+
-
|6 мая 2016 || align="center"|13 || Метод обратного распространения ошибок. Основная идея. Основные недостатки и способы их устранения. Выбор начального приближения, числа слоёв, числа нейронов скрытого слоя в градиентных методах настройки нейронных сетей. Методы ускорения сходимости. Метод оптимального прореживания нейронной сети. ||
+
-
|-
+
-
|11 мая 2016 || align="center"|14 || Задача прогнозирования временного ряда, примеры задач. Составление матрицы регрессии, адаптация весов регрессоров во времени. Экспоненциальное сглаживание, модель Хольта, модель Уинтерса.||
+
-
|-
+
-
|18 мая 2016 || align="center"|15 ||
+
-
|-
+
-
 
+
-
|}
+
-
 
+
-
== Семинары ==
+
-
 
+
-
=== Арсений Ашуха / Вторник 09:00 - 10:25===
+
-
 
+
-
Таблица с результатами находится [https://docs.google.com/spreadsheets/d/1UgKMesLFoJgj4O5xxS5G8B6Sx5XF0LW3MMRJTPbT3q0/edit?usp=sharing тут], материалы к занятиям находятся [https://www.dropbox.com/sh/ltprtkpfmsue1wl/AACn2qlsOVhG26-sBEQbx87Pa?dl=0 тут], [https://www.dropbox.com/s/yhf6sgzjn1p773u/ashuha_resume.pdf?dl=0 cv]
+
-
 
+
-
Мои студенты, напишите про себя [https://docs.google.com/spreadsheets/d/19ZUedkYT5JjyaGh9qSr_RSrsfrHc21iJvz8OFt8GG_o/edit?usp=sharing тут], вопросы лучше задавать в piazza =)
+
-
 
+
-
'''Новости''':
+
-
 
+
-
# [08.02.2016] Семинар 1 [https://www.dropbox.com/s/zuqyss40vagm4jh/ml-mipt-seminar.pdf?dl=0 тут]
+
-
# [15.02.2016] Выложено первое практическое задание, дедлайн <span style="background:red"> [01.03.2016] </span>.
+
-
# [16.02.2016] Семинар 2 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/le8vcdg2d25o70d/similarity_based_classifier_v1.ipynb тут]
+
-
# [01.02.2016] Семинар 3 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/cx74c8a1kplm5t9/clf_reg_metrics.ipynb тут]
+
-
# [15.03.2016] Семинар 4 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/r0c5511r7t4s937/Sem_4.ipynb тут]
+
-
# [19.03.2016] Выложено второе практическое задание, дедлайн <span style="background:red"> [03.04.2016] </span>
+
-
# [22.03.2016] Семинар 5 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/qsuiffe30r52te7/linear.ipynb тут]
+
-
# [20.04.2016] Выложено третье практическое задание, дедлайн <span style="background:red"> [07.05.2016] </span>.
+
-
# [25.04.2016] Выложено третье практическое задание, дедлайн <span style="background:red"> [14.05.2016] </span>.
+
-
# [28.03.2016] Семинар 8 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/tval5nbafikjkbo/sem8.ipynb тут]
+
-
# [28.03.2016] Семинар 9 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/w79nv6w2be6qmmz/MIPT%2C%20ML%2C%209.ipynb тут]
+
-
# [28.03.2016] Семинар 10 [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/35h1442yyxf3u6u/TextsClusteringExample.ipynb тут] (спасибо Виктору Кантору)
+
-
 
+
-
'''Практические задания''':
+
-
# Практическое задание 1: Метрические классификаторы [https://www.dropbox.com/s/2bhr5hp6b7uorbr/mipt-hw-1.pdf?dl=0 задание] [https://www.dropbox.com/s/6bs7qpbrvn049bn/01_knn_start_code.zip?dl=0 стартовый код] [https://inclass.kaggle.com/c/mipt-ml-spring-2016 контест]
+
-
# Практическое задание 2: Решающие деревья: [https://yadi.sk/i/JmkNAo8aqH8Je задание] [https://yadi.sk/d/9XsWG6iPqH8LE стартовый код] [https://inclass.kaggle.com/c/mipt-ml-spring-2016-2nd-task контест] (вместо непонятного критрерия можете сделать энтропию)
+
-
# Практическое задание 3: Линейные модели: [https://yadi.sk/d/LRNt48kmr952n задание] [https://inclass.kaggle.com/c/mipt-hw3 контест]
+
-
# Практическое задание 4: Решение реальной задачи: [https://www.dropbox.com/s/vy3djl6zam6k75n/mipt-hw-4.pdf?dl=0 описание] [https://inclass.kaggle.com/c/mipt-hw4-ml-2016-age-prediction контест] [https://www.dropbox.com/s/1nzl71otzu1rbhr/sample_solution.ipynb?dl=0 пример решения]
+
-
 
+
-
'''PS''':
+
-
# В задании номер 1 наверняка очень много опечаток, мы постараемся оперативно их исправить. Семинаристы пришлют приглашение в контест.
+
-
 
+
-
=== Коваленко Борис / Вторник 10:35 - 12:00 ===
+
-
 
+
-
Лог посещений и результатов [https://docs.google.com/spreadsheets/d/1w3A9hPJVTfuo80wrvsQWmByRKOzl_YgIajb5Upx_jkI/edit?usp=sharing тут] [https://ru.linkedin.com/in/boriskovalenko Linkedin]
+
-
 
+
-
# 9 февраля [https://github.com/kovalenko-boris/mlmipt/blob/master/Sem_1/Sem_1.ipynb Семинар #1]
+
-
# 16 февраля [https://github.com/kovalenko-boris/mlmipt/blob/master/Sem_2/Sem_2.ipynb Семинар #2]
+
-
# 1 марта [https://github.com/kovalenko-boris/mlmipt/blob/master/Sem_3/clf_reg_metrics.ipynb Семинар #3]
+
-
# 15 марта [https://github.com/kovalenko-boris/mlmipt/blob/master/Sem_4/Sem_4.ipynb Семинар #4]
+
-
# 22 марта [https://github.com/kovalenko-boris/mlmipt/blob/master/Sem_5/linear.ipynb Семинар #5]
+
-
 
+
-
'''Новости''':
+
-
 
+
-
# [15.02.2016] Выложено первое практическое задание, дедлайн <span style="background:red"> [01.03.2016] </span>.
+
-
# [19.03.2016] Выложено второе практическое задание, дедлайн <span style="background:red"> [03.04.2016] </span>.
+
-
# [20.04.2016] Выложено третье практическое задание, дедлайн <span style="background:red"> [07.05.2016] </span>.
+
-
 
+
-
'''Практические задания''':
+
-
 
+
-
# Практичиское задание 1: Метрические классификаторы [https://www.dropbox.com/s/io83a42kw6alxsh/mipt-hw-1.pdf?dl=0 задание] [https://www.dropbox.com/s/jw2jttijgv04967/01_knn_start_code.zip?dl=0 стартовый код] [https://inclass.kaggle.com/c/mipt-ml-spring-2016 контест]
+
-
# Практическое задание 2: Решающие деревья: [https://yadi.sk/i/JmkNAo8aqH8Je задание] [https://yadi.sk/d/9XsWG6iPqH8LE стартовый код] [https://inclass.kaggle.com/c/mipt-ml-spring-2016-2nd-task контест] (вместо непонятного критрерия можете сделать энтропию)
+
-
# Практическое задание 3: Линейные модели: [https://yadi.sk/d/LRNt48kmr952n задание] [https://inclass.kaggle.com/c/mipt-hw3 контест]
+
-
 
+
-
'''Материалы''':
+
-
 
+
-
[https://www.youtube.com/watch?v=EEUXKG97YRw&ab_channel=PyCon2015 Losing your Loops Fast Numerical Computing with NumPy]
+
-
 
+
-
=== Алексей Романенко / Вторник 16:55 - 18:20 / Вторник 18:30 - 20:00===
+
-
 
+
-
Таблица рейтинга находится [https://docs.google.com/spreadsheets/d/1wd6j-eKVFLbh0xzkevHfZswdV6GE5t7hydnATwELhU0/edit?usp=sharing тут], материалы семинаров находятся [https://drive.google.com/folderview?id=0B9ZsO9o9XXqNaWVNeGJOMHpTeU0&usp=sharing тут],
+
-
 
+
-
'''Новости''':
+
-
 
+
-
# [16.02.2016] Выложено первое опциональное домашнее задание, дедлайн <span style="background:red"> [01.03.2016] </span>.
+
-
# [06.03.2016] Выложено второе опциональное домашнее задание, дедлайн <span style="background:red"> [15.03.2016] </span>.
+
-
# [06.03.2016] Выложено решение первого опционального ДЗ.
+
-
# [16.03.2016] Выложено третье опциональное домашнее задание, дедлайн <span style="background:red"> [23.03.2016] </span>. ДЗ.
+
-
# [31.03.2016] Выложено четвёртое опциональное домашнее задание, дедлайн <span style="background:red"> [07.04.2016] </span>. ДЗ.
+
-
# [19.04.2016] Выложено пятое опциональное домашнее задание, дедлайн <span style="background:red"> [26.04.2016] </span>. ДЗ.
+
-
# [02.05.2016] Выложено шестое опциональное домашнее задание, дедлайн <span style="background:violet"> [08.05.2016] </span>. ДЗ.
+
-
 
+
-
'''Практические задания''':
+
-
# [02.03.2016] Выложено первое обязательное домашнее задание: лабораторная работа по метрическим алгоритмам, дедлайн <span style="background:red"> [19.03.2016] </span>.
+
-
# [04.04.2016] Выложено второе обязательное домашнее задание: лабораторная работа по метрическим алгоритмам и деревьям решений, дедлайн <span style="background:red"> [17.04.2016] </span>.
+
-
# [18.04.2016] Выложено третье обязательное домашнее задание: соревнование на базе контеста в Kaggle, дедлайн <span style="background:red"> [01.05.2016] </span>. Материалы контеста выложены также [https://drive.google.com/folderview?id=0B9ZsO9o9XXqNaWVNeGJOMHpTeU0&usp=sharing тут].
+
-
# [03.05.2016] Выложено четвёртое обязательное домашнее задание: соревнование на базе контеста в Kaggle, дедлайн <span style="background:violet"> [16.05.2016] </span>. Материалы контеста выложены также [https://drive.google.com/folderview?id=0B9ZsO9o9XXqNVDBlcTE4SS0tVXc&usp=sharing тут].
+
-
 
+
-
=== Валентин Малых / Вторник 18:30 - 20:00 ===
+
-
 
+
-
Таблица с результатами находится [https://docs.google.com/spreadsheets/d/1f7_r9A8O62560kkHKcurHpeX-NRcZ0qo9NQsWBLNFqo/edit?usp=sharing тут], материалы к занятиям находятся [https://yadi.sk/d/NVoB2okcoaBpN здесь].
+
-
 
+
-
'''Новости''':
+
-
# [10.02.2016] [http://jupyter.readthedocs.org/en/latest/install.html#installing-jupyter-i-already-have-python Установка IPython]. Рекомендую поставить Python 2.7. Проще всего установить [https://www.continuum.io/downloads AnacondaPython], который уже включает IPython и практически все нужные пакеты.
+
-
# [15.02.2016] Выложено первое практическое задание, дедлайн <span style="background:grey"> [01.03.2016]</span>.
+
-
# [15.02.2016] Выложен второй семинар.
+
-
# [02.03.2016] Выложен третий семинар.
+
-
# [02.03.2016] Напоминаю, что для сдачи задания нужно создать приватный вопрос на piazza и выложить в него ноутбук с кодом и картинками.
+
-
# [15.03.2016] Выложен четвертый семинар.
+
-
# [18.03.2016] Выложено второе практическое задание, дедлайн <span style="background:grey"> [02.04.2016]</span>.
+
-
# [28.03.2016] Выложен пятый семинар.
+
-
# [30.03.2016] Выложен шестой семинар.
+
-
# [13.04.2016] Выложен седьмой семинар.
+
-
# [13.04.2016] Выложен восьмой семинар. <s>Если у вас осталась недоделанной лабораторная работа, можно ее сдать через piazza.</s> Лабораторные более не принимаются.
+
-
# [20.04.2016] Выложено третье практическое задание, дедлайн <span style="background:red"> [07.05.2016]</span>.
+
-
# [03.05.2016] Выложено четвертое практическое задание, дедлайн <span style="background:red"> [17.05.2016]</span>.
+
-
 
+
-
'''Практические задания''':
+
-
 
+
-
# Метрические классификаторы: [https://www.dropbox.com/s/io83a42kw6alxsh/mipt-hw-1.pdf?dl=0 задание] [https://www.dropbox.com/s/jw2jttijgv04967/01_knn_start_code.zip?dl=0 стартовый код] [https://inclass.kaggle.com/c/mipt-ml-spring-2016 контест]
+
-
# Решающие деревья: [https://yadi.sk/i/JmkNAo8aqH8Je задание] [https://yadi.sk/d/9XsWG6iPqH8LE стартовый код] [https://inclass.kaggle.com/c/mipt-ml-spring-2016-2nd-task контест]
+
-
# Линейные модели: [https://yadi.sk/d/LRNt48kmr952n задание] [https://inclass.kaggle.com/c/mipt-hw3 контест]
+
-
# Практический кейс: [https://www.dropbox.com/s/vy3djl6zam6k75n/mipt-hw-4.pdf?dl=0 задание] [https://inclass.kaggle.com/c/mipt-hw4-ml-2016-age-prediction контест]
+
-
 
+
-
=== Никита Волков / Пятница 15:30 - 16:55 / 213 ЛК ===
+
-
 
+
-
[https://yadi.sk/d/9G081Ee7oZUH7 Материалы] семинаров. Cтраница в [https://vk.com/id30492177 ВК].
+
-
 
+
-
'''Установка ipython''':
+
-
Если у вас Убунта, то не надо мучаться с Анакондой - [http://jupyter.readthedocs.org/en/latest/install.html#using-pip все проще].
+
-
А еще можно использовать онлайн ноутбуки.
+
-
 
+
-
'''Инструкции по Python и Jupyter''': Если вы плохо разбираетесь в Python и Jupyter, полезно почитать инструкции, которые составлены для курса математической статистики. Ссылки расположены внизу [http://ru.discrete-mathematics.org/?page_id=2875 страницы] курса.
+
-
 
+
-
'''Новости''':
+
-
# В пятницу 8.04 состоится два семинара в 13:55 и в 15:30, на одном из которых будет контрольная. В пятницу 22.04 семинара не будет.
+
-
 
+
-
=== Анастасия Зухба / Вторник 18:30 - 20:00 ===
+
-
 
+
-
Таблица с результатами находится [https://docs.google.com/spreadsheets/d/1A9Lawf-bw-UvmFj9u7SMuWmNu1LjCioCy2Qc58hE0ug/edit?usp=sharing тут], материалы к занятиям находятся [https://yadi.sk/d/qdwIwITJoymSa здесь].
+
-
 
+
-
'''Новости''':
+
-
# [17.02.2016] Добавлены материалы первого и второго семинара.
+
-
# [29.03.2016] Добавлено [https://drive.google.com/file/d/0B-3LhgkjkY_OMDRLWHdscDNNNXM/view?usp=sharing первое домашнее задание]. Срок сдачи '''18.04.2016'''
+
-
 
+
-
== Литература ==
+
-
# ''К. В. Воронцов'' [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Математические методы обучения по прецедентам]
+
-
# ''Trevor Hastie'' [http://web.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition]
+
-
# ''Christopher Bishop'' [http://www.rmki.kfki.hu/~banmi/elte/Bishop%20-%20Pattern%20Recognition%20and%20Machine%20Learning.pdf Pattern Recognition and Machine Learning]
+
-
# Stanford [http://cs231n.github.io/python-numpy-tutorial/ python/numpy] [http://cs229.stanford.edu/section/cs229-linalg.pdf linear algebra] [http://cs229.stanford.edu/section/cs229-prob.pdf probability] [http://cs231n.github.io/optimization-1/ optimization] tururials
+
-
 
+
-
== Позезные пакеты ==
+
-
# [https://www.continuum.io/downloads Anaconda] -- установка питона и большого количества библиотек.
+
-
 
+
-
== Страницы курса прошлых лет ==
+
-
--
+
-
 
+
-
== См. также ==
+
-
[[Категория:Учебные курсы]]
+

Текущая версия

Страница купса переехала сюда https://ml-mipt.github.io/

Личные инструменты