Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Слушатели)
(Лекции)
Строка 34: Строка 34:
==Лекции==
==Лекции==
-
{| class="wikitable"
+
 
-
|-
+
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
-
! Число
+
 
-
! Лекция
+
Старую программу см. на странице
-
! Материалы, замечания
+
[[Спецкурс «Прикладные задачи анализа данных» (2013 год)]].
-
|-
+
-
| 16.09.13
+
-
| '''Решение задачи [[http://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge The Big Data Combine Engineered by BattleFin]] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB.'''
+
-
| Домашнее задание: решить задачу (отчёт). Материалы см. в [[https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5775/codes-my-submissions-from-my-lecture ветке форума]] соревнования.
+
-
|-
+
-
| 07.10.13
+
-
| Разбор первого домашнего задания. '''Искусство визуализации данных: признаки в задаче [[http://www.kaggle.com/c/bioresponse bioresponse]], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений'''
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 14.10.13
+
-
| Продолжение '''Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [[http://www.kaggle.com/c/cause-effect-pairs cause-effect-pairs]], [[http://www.kaggle.com/c/GiveMeSomeCredit GiveMeSomeCredit]], [[http://www.kaggle.com/c/DarkWorlds DarkWorlds]].''' Как начать решать второе домашнее задание.
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 21.10.13
+
-
| Вторая задача: мозговой штурм. '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [[http://www.kaggle.com/c/dunnhumbychallenge dunnhumby]].'''
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 28.10.13
+
-
| Продолжение '''Оценка плотности. Весовые схемы. Задача [[http://imat2010.yandex.ru/datasets пробки]].'''
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 04.11.13
+
-
| {{Важно|Праздничный день.}}
+
-
|
+
-
|-
+
-
| 11.11.13
+
-
| Напоминание: '''линейные классификаторы и линейная регрессия. Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]], [[http://www.neural-forecasting-competition.com/NN5/results.htm NN5]], [[http://www.kaggle.com/c/tourism2 tourism2]]'''. Мозговой штурм по задаче [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]].
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 18.11.13
+
-
| '''Анализ текста: классификация и регрессия.''' Задачи: [[http://www.ecmlpkdd2006.org/challenge.html spam]]. Ежегодное соревнование [[http://lib.iit.demokritos.gr/ LSHTC]].
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 25.11.13
+
-
| Продолжение: '''Анализ текста: классификация и регрессия.''' Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]].
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 02.12.13
+
-
| '''Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков.''' Разбор задачи [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]]. Новая задача [[http://olymp.wikimart.ru/ wikimart]].
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 09.12.13
+
-
| Продолжение: '''Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии.''' Задачи [[http://www.kaggle.com/c/bioresponse bioresponse]], [[http://www.kaggle.com/c/WhatDoYouKnow WhatDoYouKnow]] (предсказывание правильности ответов на вопросы тестов).
+
-
| Слайды и материалы высланы по почте участникам.
+
-
|-
+
-
| 16.12.13
+
-
| '''Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества.''' Задачи [[http://www.kaggle.com/c/PhotoQualityPrediction PhotoQualityPrediction]] (определение качества фотографии по метаданным), [[http://www.kaggle.com/c/unimelb unimelb]] (предсказывание успешности выполнения гранта), [[http://tunedit.org/challenge/VLNetChallenge VLNetChallenge]] (рекомендация видеолекций для просмотра).
+
-
|
+
-
|-
+
-
|
+
-
| {{Важно|Самостоятельное решение прикладных задач на [[http://www.kaggle.com/competitions Кэгле]].}}
+
-
|
+
-
|-
+
-
| 17.03.14
+
-
| '''Решение задач с категориальными (номинальными, факторными) признаками.''' Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [[http://www.kaggle.com/c/amazon-employee-access-challenge Аmazon employee access]] (разработка рекомендательной системы для службы безопасности).
+
-
| Лекция выслана по почте участникам.
+
-
|}
+
== Аннотация ==
== Аннотация ==

Версия 15:48, 23 мая 2014

Содержание

Объявление

Данный курс стал победителем конкурса инновационных учебных технологий.


Спецкурс начал работу 16 сентября (понедельник) в 16:20 (5я пара).

Лектор: Дьяконов Александр



Важно! Для участия в спецкурсе необходимо было зарегистрироваться.

Сейчас регистрация уже закрыта.

Желающие прослушать спецкурс могут дождаться следующего года.


Страницы курсов прошлых лет

Спецкурс «Прикладные задачи анализа данных» (2013 год)

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

  • спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R) и т.п.
  • спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Правила

  • Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
  • Слушатели, которые перестают делать домашние задания, удаляются из таблицы.

Лекции

Здесь будет выложена программа нового (2014 года) - по мере чтения курса.

Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).

Аннотация

2do

Автор программы: Дьяконов Александр Геннадьевич

Отчётность

  • отчёты по решению конкурсных задач (доклады с презентацией + исходники)
  • зачёт с оценкой в конце семестра

Ссылки

Вводная лекция, которая написана для просеминара.

Глава 12 «Шаманство в анализе данных».

Переработка предыдущего источника в научно-популярную лекцию.

Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.

Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.

Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.

Личные инструменты