Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
(→Ссылки) |
(→Ссылки) |
||
Строка 147: | Строка 147: | ||
== Ссылки == | == Ссылки == | ||
- | # | + | # Книга [http://www.mmds.org/ Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets] * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний). |
# [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]]. | # [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]]. | ||
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных». | # [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных». |
Версия 15:02, 2 октября 2014
Содержание |
Объявление
Регистрация на спецкурс завершена. Кто не успел - ждите следующего года.
|
ЗАПИСАЛИСЬ | группа | регистрация |
---|---|---|
Семёнов Станислав Георгиевич | ВШЭ | 05.09 |
Арбузова Дарья Андреевна | 517 | 05.09 |
Гущин Александр Евгеньевич | МФТИ | 05.09 |
Потапенко Анна Александровна | 617 | 06.09 |
Фенстер Александра Михайловна | НИУ ВШЭ 172мАИД | 06.09 |
Вихрева Мария Викторовна | 315 | 06.09 |
Бахтин Антон Вячеславович | МГУ, Яндекс | 06.09 |
Ульянов Дмитрий Владимирович | 517 | 07.09 |
Шапулин Андрей Валентинович | 417 | 07.09 |
Сиверский Михаил Николаевич | физфак | 09.09 |
Игнатов Алексей Николаевич | 516 | 11.09 |
Сокурский Юрий Валентинович | 517 | 12.09 |
Дойков Никита Владимирович | 417 | 14.09 |
Лукашкина Юлия Николаевна | 417 | 15.09 |
Байбурин Валерий Тагирович | м118 | 15.09 |
Дымов Григорий Андреевич | Stockholm university | 16.09 |
Чинаев Николай Николаевич | МФТИ | 17.09 |
Хальман Михаил Анатольевич | 417 | 20.09 |
Аннотация
Данный курс стал победителем конкурса инновационных учебных технологий. |
Лектор: Дьяконов Александр
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
- Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
Лекции
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
Число | Лекция | Материалы, замечания |
---|---|---|
24.09.14 | Matrix Laboratory (эффективное программирование): системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными | слайды лекции 1, рекомендованное учебное пособие: Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab |
01.10.14 | Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.
Домашнее задание №1: Соревнование Learning Social Circles in Networks по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей. Социальные сети: динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин. | слайды лекции 2 (zip,jpg 5Mb) |
08.10.14 | Социальные сети: продолжение. |
Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
- Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
- Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
- Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
- Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
- Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
- Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна)
В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.
Для участия в отборе необходимо:
- освоить (если его не было в учебной программе) курс Машинное обучение,
- выступить хотя бы в одном соревновании по анализу данных (см. ниже),
- Пройти анкетирование (или собеседование в сентябре).
Список допустимых соревнований:
- Display Advertising Challenge завершён
- Liberty Mutual Group - Fire Peril Loss Cost завершён
- The Hunt for Prohibited Content завершён
- Higgs Boson Machine Learning Challenge завершён
- ecMeg2014 - Decoding the Human Brain завершён
- Detect seizures in intracranial EEG recordings завершён
- KDD Cup 2014 - Predicting Excitement at DonorsChoose.org завершён
- Acquire Valued Shoppers Challenge завершён
- Greek Media Monitoring Multilabel Classification (WISE 2014) завершён
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
В новой версии спецкурса будет серия лекций по системам Matlab и R.
Кроме того, будут рассмотрены новые темы: например, анализ соцсетей.
Объявлен набор слушателей на спецкурс (5 сентября 2014 года).
Необходима регистрация! Для этого надо прислать на почту djakonov (собака) mail (точка) ru
Тема письма: [ПЗАД] Фамилия студента
Текст: в первой строке через точку с запятой указываются
- Фамилия Имя Отчество,
- группа (вуз, если из другого вуза),
- в скольких соревнования на сайте Kaggle участвовали (число),
- какие курсы по машинному обучению прослушаны,
- желаемые дни и часы (в формате ПТН, 18-00),
- знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
- страница на Kaggle,
- сколько часов в неделю готовы уделять выполнению практических заданий.
В других строчках (начиная со второй) можно по желанию дать пояснения.
Пример:
Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8
Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…