Материал из MachineLearning.
(Различия между версиями)
|
|
Строка 34: |
Строка 34: |
| | | |
| ==Лекции== | | ==Лекции== |
- | {| class="wikitable"
| + | |
- | |-
| + | Здесь будет выложена программа нового (2014 года) - по мере чтения курса. |
- | ! Число
| + | |
- | ! Лекция
| + | Старую программу см. на странице |
- | ! Материалы, замечания
| + | [[Спецкурс «Прикладные задачи анализа данных» (2013 год)]]. |
- | |-
| + | |
- | | 16.09.13
| + | |
- | | '''Решение задачи [[http://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge The Big Data Combine Engineered by BattleFin]] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB.'''
| + | |
- | | Домашнее задание: решить задачу (отчёт). Материалы см. в [[https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5775/codes-my-submissions-from-my-lecture ветке форума]] соревнования.
| + | |
- | |-
| + | |
- | | 07.10.13
| + | |
- | | Разбор первого домашнего задания. '''Искусство визуализации данных: признаки в задаче [[http://www.kaggle.com/c/bioresponse bioresponse]], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений'''
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 14.10.13
| + | |
- | | Продолжение '''Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [[http://www.kaggle.com/c/cause-effect-pairs cause-effect-pairs]], [[http://www.kaggle.com/c/GiveMeSomeCredit GiveMeSomeCredit]], [[http://www.kaggle.com/c/DarkWorlds DarkWorlds]].''' Как начать решать второе домашнее задание.
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 21.10.13
| + | |
- | | Вторая задача: мозговой штурм. '''Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [[http://www.kaggle.com/c/dunnhumbychallenge dunnhumby]].'''
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 28.10.13
| + | |
- | | Продолжение '''Оценка плотности. Весовые схемы. Задача [[http://imat2010.yandex.ru/datasets пробки]].'''
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 04.11.13
| + | |
- | | {{Важно|Праздничный день.}}
| + | |
- | |
| + | |
- | |-
| + | |
- | | 11.11.13
| + | |
- | | Напоминание: '''линейные классификаторы и линейная регрессия. Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]], [[http://www.neural-forecasting-competition.com/NN5/results.htm NN5]], [[http://www.kaggle.com/c/tourism2 tourism2]]'''. Мозговой штурм по задаче [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]].
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 18.11.13
| + | |
- | | '''Анализ текста: классификация и регрессия.''' Задачи: [[http://www.ecmlpkdd2006.org/challenge.html spam]]. Ежегодное соревнование [[http://lib.iit.demokritos.gr/ LSHTC]].
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 25.11.13
| + | |
- | | Продолжение: '''Анализ текста: классификация и регрессия.''' Задачи: [[http://tunedit.org/challenge/JRS12Contest?m=summary JRS12]].
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 02.12.13
| + | |
- | | '''Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков.''' Разбор задачи [[http://www.kaggle.com/c/see-click-predict-fix/ see-click-predict-fix]]. Новая задача [[http://olymp.wikimart.ru/ wikimart]].
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 09.12.13
| + | |
- | | Продолжение: '''Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии.''' Задачи [[http://www.kaggle.com/c/bioresponse bioresponse]], [[http://www.kaggle.com/c/WhatDoYouKnow WhatDoYouKnow]] (предсказывание правильности ответов на вопросы тестов).
| + | |
- | | Слайды и материалы высланы по почте участникам.
| + | |
- | |-
| + | |
- | | 16.12.13
| + | |
- | | '''Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества.''' Задачи [[http://www.kaggle.com/c/PhotoQualityPrediction PhotoQualityPrediction]] (определение качества фотографии по метаданным), [[http://www.kaggle.com/c/unimelb unimelb]] (предсказывание успешности выполнения гранта), [[http://tunedit.org/challenge/VLNetChallenge VLNetChallenge]] (рекомендация видеолекций для просмотра).
| + | |
- | |
| + | |
- | |-
| + | |
- | |
| + | |
- | | {{Важно|Самостоятельное решение прикладных задач на [[http://www.kaggle.com/competitions Кэгле]].}}
| + | |
- | |
| + | |
- | |-
| + | |
- | | 17.03.14
| + | |
- | | '''Решение задач с категориальными (номинальными, факторными) признаками.''' Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [[http://www.kaggle.com/c/amazon-employee-access-challenge Аmazon employee access]] (разработка рекомендательной системы для службы безопасности).
| + | |
- | | Лекция выслана по почте участникам.
| + | |
- | |}
| + | |
| | | |
| == Аннотация == | | == Аннотация == |
Версия 15:48, 23 мая 2014
Объявление
Спецкурс начал работу 16 сентября (понедельник) в 16:20 (5я пара).
Лектор: Дьяконов Александр
| Важно! Для участия в спецкурсе необходимо было зарегистрироваться.
Сейчас регистрация уже закрыта.
Желающие прослушать спецкурс могут дождаться следующего года.
|
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R) и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
- Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
Лекции
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
Старую программу см. на странице
Спецкурс «Прикладные задачи анализа данных» (2013 год).
Аннотация
2do
Автор программы: Дьяконов Александр Геннадьевич
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Ссылки
Вводная лекция, которая написана для просеминара.
Глава 12 «Шаманство в анализе данных».
Переработка предыдущего источника в научно-популярную лекцию.
Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.