Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
(→Лекции) |
(→Правила) |
||
Строка 30: | Строка 30: | ||
! группа | ! группа | ||
! 08.10 - соцсети<br> email/LB | ! 08.10 - соцсети<br> email/LB | ||
+ | ! 15.10 - соцсети<br> преодоление порога | ||
|- | |- | ||
| Семёнов Станислав Георгиевич | | Семёнов Станислав Георгиевич | ||
| ВШЭ | | ВШЭ | ||
| - / 0 [-7] | | - / 0 [-7] | ||
+ | | | ||
|- | |- | ||
| Арбузова Дарья Андреевна | | Арбузова Дарья Андреевна | ||
| 517 | | 517 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Гущин Александр Евгеньевич | | Гущин Александр Евгеньевич | ||
| МФТИ | | МФТИ | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Потапенко Анна Александровна | | Потапенко Анна Александровна | ||
| 617 | | 617 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Фенстер Александра Михайловна | | Фенстер Александра Михайловна | ||
| НИУ ВШЭ 172мАИД | | НИУ ВШЭ 172мАИД | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Вихрева Мария Викторовна | | Вихрева Мария Викторовна | ||
| 315 | | 315 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Бахтин Антон Вячеславович | | Бахтин Антон Вячеславович | ||
| МГУ, Яндекс | | МГУ, Яндекс | ||
| + / - [-5] | | + / - [-5] | ||
+ | | | ||
|- | |- | ||
| Ульянов Дмитрий Владимирович | | Ульянов Дмитрий Владимирович | ||
| 517 | | 517 | ||
| + / 0 [-2] | | + / 0 [-2] | ||
+ | | | ||
|- | |- | ||
| Шапулин Андрей Валентинович | | Шапулин Андрей Валентинович | ||
| 417 | | 417 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Сиверский Михаил Николаевич | | Сиверский Михаил Николаевич | ||
| физфак | | физфак | ||
| [-10] | | [-10] | ||
+ | | | ||
|- | |- | ||
| Игнатов Алексей Николаевич | | Игнатов Алексей Николаевич | ||
| 516 | | 516 | ||
| [-10] | | [-10] | ||
+ | | | ||
|- | |- | ||
| Сокурский Юрий Валентинович | | Сокурский Юрий Валентинович | ||
| 517 | | 517 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Дойков Никита Владимирович | | Дойков Никита Владимирович | ||
| 417 | | 417 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Лукашкина Юлия Николаевна | | Лукашкина Юлия Николаевна | ||
| 417 | | 417 | ||
| [-10] | | [-10] | ||
+ | | | ||
|- | |- | ||
| Байбурин Валерий Тагирович | | Байбурин Валерий Тагирович | ||
| м118 | | м118 | ||
| + / - [-5] | | + / - [-5] | ||
+ | | | ||
|- | |- | ||
| Дымов Григорий Андреевич | | Дымов Григорий Андреевич | ||
| Stockholm university | | Stockholm university | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Чинаев Николай Николаевич | | Чинаев Николай Николаевич | ||
| МФТИ | | МФТИ | ||
| [-10] | | [-10] | ||
+ | | | ||
|- | |- | ||
| Хальман Михаил Анатольевич | | Хальман Михаил Анатольевич | ||
| 417 | | 417 | ||
| + / + | | + / + | ||
+ | | | ||
|- | |- | ||
| Нижибицкий Евгений | | Нижибицкий Евгений | ||
| аспВМК | | аспВМК | ||
| - / 0 [-7] | | - / 0 [-7] | ||
+ | | | ||
|- | |- | ||
| Остапец Андрей | | Остапец Андрей | ||
| аспВМК | | аспВМК | ||
| - / + [-5] | | - / + [-5] | ||
+ | | | ||
|} | |} | ||
Версия 19:40, 18 октября 2014
Регистрация на спецкурс завершена. Кто не успел - ждите следующего года.
|
Содержание |
Аннотация
Данный курс стал победителем конкурса инновационных учебных технологий. |
Лектор: Дьяконов Александр
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
- Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
- За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
ЗАПИСАЛИСЬ | группа | 08.10 - соцсети email/LB | 15.10 - соцсети преодоление порога |
---|---|---|---|
Семёнов Станислав Георгиевич | ВШЭ | - / 0 [-7] | |
Арбузова Дарья Андреевна | 517 | + / + | |
Гущин Александр Евгеньевич | МФТИ | + / + | |
Потапенко Анна Александровна | 617 | + / + | |
Фенстер Александра Михайловна | НИУ ВШЭ 172мАИД | + / + | |
Вихрева Мария Викторовна | 315 | + / + | |
Бахтин Антон Вячеславович | МГУ, Яндекс | + / - [-5] | |
Ульянов Дмитрий Владимирович | 517 | + / 0 [-2] | |
Шапулин Андрей Валентинович | 417 | + / + | |
Сиверский Михаил Николаевич | физфак | [-10] | |
Игнатов Алексей Николаевич | 516 | [-10] | |
Сокурский Юрий Валентинович | 517 | + / + | |
Дойков Никита Владимирович | 417 | + / + | |
Лукашкина Юлия Николаевна | 417 | [-10] | |
Байбурин Валерий Тагирович | м118 | + / - [-5] | |
Дымов Григорий Андреевич | Stockholm university | + / + | |
Чинаев Николай Николаевич | МФТИ | [-10] | |
Хальман Михаил Анатольевич | 417 | + / + | |
Нижибицкий Евгений | аспВМК | - / 0 [-7] | |
Остапец Андрей | аспВМК | - / + [-5] |
Лекции
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
Число | Лекция | Материалы, замечания |
---|---|---|
24.09.14 | Matrix Laboratory (эффективное программирование): системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными | слайды лекции 1, рекомендованное учебное пособие: Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab |
01.10.14 | Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.
Домашнее задание №1: Соревнование Learning Social Circles in Networks по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей. Социальные сети: динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин. | слайды лекции 2 (zip, jpg 8Mb), книга [1], код для загрузки данных |
08.10.14 | Социальные сети (продолжение): прогнозирование появления рёбер в динамическом графе, решение задачи соревнования IJCNN Social Network Challenge, признаки рёбер, алгоритм PageRank и его модификации, сообщества в графах и их выделение, спектральные методы на графах, генерация случайных графов.
Домашнее задание №1: мозговой штурм. | слайды лекции 2 (zip, jpg 8Mb), статья Learning to Discover Social Circles in Ego Networks, обзор Community Detection in Graphs, обзор Случайные графы, модели и генераторы. |
15.10.14 | Искусство визуализации данных: игра "Что за данные", признаки в задаче [bioresponse], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. |
Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
- Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
- Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
- Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
- Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
- Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
- Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна)
В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.
Для участия в отборе необходимо:
- освоить (если его не было в учебной программе) курс Машинное обучение,
- выступить хотя бы в одном соревновании по анализу данных (см. ниже),
- Пройти анкетирование (или собеседование в сентябре).
Список допустимых соревнований:
- Display Advertising Challenge завершён
- Liberty Mutual Group - Fire Peril Loss Cost завершён
- The Hunt for Prohibited Content завершён
- Higgs Boson Machine Learning Challenge завершён
- ecMeg2014 - Decoding the Human Brain завершён
- Detect seizures in intracranial EEG recordings завершён
- KDD Cup 2014 - Predicting Excitement at DonorsChoose.org завершён
- Acquire Valued Shoppers Challenge завершён
- Greek Media Monitoring Multilabel Classification (WISE 2014) завершён
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
В новой версии спецкурса будет серия лекций по системам Matlab и R.
Кроме того, будут рассмотрены новые темы: например, анализ соцсетей.
Объявлен набор слушателей на спецкурс (5 сентября 2014 года).
Необходима регистрация! Для этого надо прислать на почту djakonov (собака) mail (точка) ru
Тема письма: [ПЗАД] Фамилия студента
Текст: в первой строке через точку с запятой указываются
- Фамилия Имя Отчество,
- группа (вуз, если из другого вуза),
- в скольких соревнования на сайте Kaggle участвовали (число),
- какие курсы по машинному обучению прослушаны,
- желаемые дни и часы (в формате ПТН, 18-00),
- знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
- страница на Kaggle,
- сколько часов в неделю готовы уделять выполнению практических заданий.
В других строчках (начиная со второй) можно по желанию дать пояснения.
Пример:
Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8
Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…