Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекции)
(Ссылки)
Строка 202: Строка 202:
# Книга [http://www.mmds.org/ Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets] * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
# Книга [http://www.mmds.org/ Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets] * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
 +
# Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice)] по визуализации данных
# [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]].
# [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]].
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных».
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных».

Версия 19:52, 18 октября 2014

Регистрация на спецкурс завершена. Кто не успел - ждите следующего года.


Зарегистрированные слушатели получили 3 инфо-рассылки (в них вся информация по времени и дате спецкурса).


Содержание

Аннотация

Данный курс стал победителем конкурса инновационных учебных технологий.


Лектор: Дьяконов Александр

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

  • спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
  • спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Правила

  • Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
  • Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
  • За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
ЗАПИСАЛИСЬ группа 08.10 - соцсети
email/LB
15.10 - соцсети
преодоление порога
05.11 - что за данные
Семёнов Станислав Георгиевич ВШЭ - / 0 [-7]
Арбузова Дарья Андреевна 517 + / +
Гущин Александр Евгеньевич МФТИ + / +
Потапенко Анна Александровна 617 + / +
Фенстер Александра Михайловна НИУ ВШЭ 172мАИД + / +
Вихрева Мария Викторовна 315 + / +
Бахтин Антон Вячеславович МГУ, Яндекс + / - [-5]
Ульянов Дмитрий Владимирович 517 + / 0 [-2]
Шапулин Андрей Валентинович 417 + / +
Сиверский Михаил Николаевич физфак [-10]
Игнатов Алексей Николаевич 516 [-10]
Сокурский Юрий Валентинович 517 + / +
Дойков Никита Владимирович 417 + / +
Лукашкина Юлия Николаевна 417 [-10]
Байбурин Валерий Тагирович м118 + / - [-5]
Дымов Григорий Андреевич Stockholm university + / +
Чинаев Николай Николаевич МФТИ [-10]
Хальман Михаил Анатольевич 417 + / +
Нижибицкий Евгений аспВМК - / 0 [-7]
Остапец Андрей аспВМК - / + [-5]

Лекции

Здесь будет выложена программа нового (2014 года) - по мере чтения курса.

Число Лекция Материалы, замечания
24.09.14 Matrix Laboratory (эффективное программирование): системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными слайды лекции 1, рекомендованное учебное пособие: Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab
01.10.14 Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.

Домашнее задание №1: Соревнование Learning Social Circles in Networks по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей.

Социальные сети: динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин.

слайды лекции 2 (zip, jpg 8Mb), книга [1], код для загрузки данных
08.10.14 Социальные сети (продолжение): прогнозирование появления рёбер в динамическом графе, решение задачи соревнования IJCNN Social Network Challenge, признаки рёбер, алгоритм PageRank и его модификации, сообщества в графах и их выделение, спектральные методы на графах, генерация случайных графов.

Домашнее задание №1: мозговой штурм.

слайды лекции 2 (zip, jpg 8Mb), статья Learning to Discover Social Circles in Ego Networks, обзор Community Detection in Graphs, обзор Случайные графы, модели и генераторы.
15.10.14 Искусство визуализации данных: игра "Что за данные", признаки в задаче [bioresponse], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. слайды лекции 3 (zip, jpg 7.6Mb)


Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).

Отчётность

  • отчёты по решению конкурсных задач (доклады с презентацией + исходники)
  • зачёт с оценкой в конце семестра

Страницы курсов прошлых лет

Спецкурс «Прикладные задачи анализа данных» (2013 год)

Ссылки

  1. Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
  2. Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
  3. Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
  4. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
  5. Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
  6. Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
  7. Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
  8. Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.

ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна)

В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.

Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.

Для участия в отборе необходимо:

  • освоить (если его не было в учебной программе) курс Машинное обучение,
  • выступить хотя бы в одном соревновании по анализу данных (см. ниже),
  • Пройти анкетирование (или собеседование в сентябре).

Список допустимых соревнований:

Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!

В новой версии спецкурса будет серия лекций по системам Matlab и R.

Кроме того, будут рассмотрены новые темы: например, анализ соцсетей.


Объявлен набор слушателей на спецкурс (5 сентября 2014 года). Необходима регистрация! Для этого надо прислать на почту djakonov (собака) mail (точка) ru

Тема письма: [ПЗАД] Фамилия студента

Текст: в первой строке через точку с запятой указываются

  • Фамилия Имя Отчество,
  • группа (вуз, если из другого вуза),
  • в скольких соревнования на сайте Kaggle участвовали (число),
  • какие курсы по машинному обучению прослушаны,
  • желаемые дни и часы (в формате ПТН, 18-00),
  • знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
  • страница на Kaggle,
  • сколько часов в неделю готовы уделять выполнению практических заданий.

В других строчках (начиная со второй) можно по желанию дать пояснения.

Пример: Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8

Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…

Личные инструменты