Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
(→Лекции) |
(→Объявление) |
||
Строка 1: | Строка 1: | ||
== Объявление == | == Объявление == | ||
{{notice| | {{notice| | ||
- | + | Данный курс стал победителем конкурса [http://ria.ru/society/20140422/1004993769.html инновационных учебных технологий]. | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
}} | }} | ||
Спецкурс начал работу {{Важно|16 сентября (понедельник) в 16:20 (5я пара)}}. | Спецкурс начал работу {{Важно|16 сентября (понедельник) в 16:20 (5я пара)}}. |
Версия 10:18, 25 апреля 2014
Содержание |
Объявление
Данный курс стал победителем конкурса инновационных учебных технологий. |
Спецкурс начал работу 16 сентября (понедельник) в 16:20 (5я пара).
Лектор: Дьяконов Александр
Важно! Для участия в спецкурсе необходимо было зарегистрироваться.
Сейчас регистрация уже закрыта. Желающие прослушать спецкурс могут дождаться следующего года. |
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R) и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Слушатели
ФИО | регистрация | задание 1
(kaggle) | задание 2
(venture) | задание 3
(kaggle) | задание 4
(wikimart) | задание 5
(game) | штраф(сумма на 26.10) |
---|---|---|---|---|---|---|---|
Рыжков Александр Михайлович | 417 | LB+r | +r | LB+r | LB | +-+00 | 0 отлично |
Харациди Олег | 417 | LB+r | +r | LB+r | LB | --+00 | 0 отлично |
Шаповалов Никита Анатольевич | 201 | LB+r | {-10} | LB {-7} | {-7} | 00000 | -24 |
Адимов Арсений Владимирович | 205 | LB+r | {-10} | LB {-7} | {-7} | 00000 | -24 |
Рысьмятова Анастасия Александровна | 214 | LB+r | +r | LB+r | LB | -+000 | 0 отлично |
Тавыриков Юрий Евгеньевич | 205 | LB-2+r | +r | LB+r | LB | 00000 | 0 |
Трофимов Михаил Игоревич | МФТИ4 | LB+r | {-10} | LB-3+r | LB-2 | 00000 | -10 |
Шадриков Андрей | 417 | LB+r | +r | {-10} | LB | 00000 | -10 |
Кудрявцев Георгий Алексеевич | 206 | LB-1+r | +r | LB-2+r | LB-3 | ++000 | 0 отлично |
Софиюк Константин Сергеевич | 206 | LB+r | +r | LB-1+r | LB-1 | ++++0 | 0 отлично |
Долганов Станислав Викторович | 206 | LB+r | +r | LB+r | {-7} | 00000 | -7 |
Тихонов Глеб Николаевич | 513 | LB+r | +r | LB+r | {-7} | +++++ | -7 отлично |
Купляков Денис | 203 | LB+r | +r | LB+r | {-7} | 00000 | -7 |
Шабашев Фёдор Маркович | 417 | LB+r | {-7} (п.з.) | {-7}+r | {-7} | +++++ | -21 удовлетворительно |
Ломов Никита | 417 | LB+r | +r | LB {-7} | {-7} | +++00 | -14 хорошо |
Алёшин Илья | 417 | LB+r | +r {-1} | LB+r | LB | ++000 | -1 отлично |
Славнов Константин Анатольевич | 317 | LB+r | +r | {-7}+r | {-7} | +нннн | -22 удовлетворительно |
Шевцова (Подлевских) Алена | ВМКвып | LB+r | {-10} | LB {-7} | {-7} | 00000 | -24 |
Гавриков Михаил Игоревич | 517 | +r {-6} | +r | LB {-7} | {-7} | ++++0 | -20 удовлетворительно |
Фонарев Александр Юрьевич | 517 | +r {-3} | +r | LB {-7} | {-7} | ннннн | -27 удовлетворительно |
Дорофеев Николай Юрьевич | Яндекс | {-10} | {-10} | LB {-7} | {-7} | 00000 | -34 |
Игнатов Алексей Николаевич | 416 | +r {-3} | {-10} | Deleted(03.12) | Deleted | ||
Ромов Петр Алексеевич | 517 | {-10} | {-10} | Deleted(20.11) | Deleted | ||
Файзи Вахиб | маг | LB+r | Deleted(30.10) | Deleted | |||
Кульпинов Владимир Константинович | 202 | LB {-3} | Deleted(30.10) | Deleted | |||
Бырдин Александр Владимирович | МФТИ4 | LB-3 {-3} | Deleted(30.10) | Deleted | |||
Зак Евгений | 517 | LB {-3} | Deleted(30.10) | Deleted |
Лекции
Число | Лекция | Материалы, замечания |
---|---|---|
16.09.13 | Решение задачи [The Big Data Combine Engineered by BattleFin] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB. | Домашнее задание: решить задачу (отчёт). Материалы см. в [ветке форума] соревнования. |
07.10.13 | Разбор первого домашнего задания. Искусство визуализации данных: признаки в задаче [bioresponse], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений | Слайды и материалы высланы по почте участникам. |
14.10.13 | Продолжение Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. Как начать решать второе домашнее задание. | Слайды и материалы высланы по почте участникам. |
21.10.13 | Вторая задача: мозговой штурм. Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [dunnhumby]. | Слайды и материалы высланы по почте участникам. |
28.10.13 | Продолжение Оценка плотности. Весовые схемы. Задача [пробки]. | Слайды и материалы высланы по почте участникам. |
04.11.13 | Праздничный день. | |
11.11.13 | Напоминание: линейные классификаторы и линейная регрессия. Задачи: [JRS12], [NN5], [tourism2]. Мозговой штурм по задаче [see-click-predict-fix]. | Слайды и материалы высланы по почте участникам. |
18.11.13 | Анализ текста: классификация и регрессия. Задачи: [spam]. Ежегодное соревнование [LSHTC]. | Слайды и материалы высланы по почте участникам. |
25.11.13 | Продолжение: Анализ текста: классификация и регрессия. Задачи: [JRS12]. | Слайды и материалы высланы по почте участникам. |
02.12.13 | Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков. Разбор задачи [see-click-predict-fix]. Новая задача [wikimart]. | Слайды и материалы высланы по почте участникам. |
09.12.13 | Продолжение: Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии. Задачи [bioresponse], [WhatDoYouKnow] (предсказывание правильности ответов на вопросы тестов). | Слайды и материалы высланы по почте участникам. |
16.12.13 | Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра). | |
Самостоятельное решение прикладных задач на [Кэгле]. | ||
17.03.14 | Решение задач с категориальными (номинальными, факторными) признаками. Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [Аmazon employee access] (разработка рекомендательной системы для службы безопасности). | Лекция выслана по почте участникам. |
Аннотация
2do
Автор программы: Дьяконов Александр Геннадьевич
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Ссылки
Вводная лекция, которая написана для просеминара.
Глава 12 «Шаманство в анализе данных».
Переработка предыдущего источника в научно-популярную лекцию.
Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
- Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей»
Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.