Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор. Для участия в отборе необходимо:
Список допустимых соревнований:
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор! Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)". Как всегда: программа нового года будет слегка отличаться от предыдущих (добавлены новые темы, улучшено содержание). Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом. |
Содержание |
Аннотация
Данный курс стал победителем конкурса инновационных учебных технологий. |
Лектор: Дьяконов Александр
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
- Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
- За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
ЗАПИСАЛИСЬ | группа | 08.10 - соцсети email/LB | 15.10 - соцсети преодоление порога | 05.11 - что за данные | 06.11 - отчёты по соцсетям | 03.12 - click kaggle |
---|---|---|---|---|---|---|
Семёнов Станислав Георгиевич | ВШЭ | - / 0 [-7] | + | + | [-5] (2 место) | [-10] |
Арбузова Дарья Андреевна | 517 | + / + | + | + | + | + |
Гущин Александр Евгеньевич | МФТИ | + / + | + | + | + | + |
Потапенко Анна Александровна | 617 | + / + | + | + | + | + |
Фенстер Александра Михайловна | НИУ ВШЭ 172мАИД | + / + | + | + | + | [-10] |
Вихрева Мария Викторовна | 315 | + / + | + | + | + | + |
Бахтин Антон Вячеславович | МГУ, Яндекс | + / - [-5] | [-5] | + | [-10] | + |
Ульянов Дмитрий Владимирович | 517 | + / 0 [-2] | + | + | + | + |
Шапулин Андрей Валентинович | 417 | + / + | + | + | + (3 место) | [-10] |
Сиверский Михаил Николаевич | физфак | [-10] | [-5] | + | + (1 место) | + |
Игнатов Алексей Николаевич | 516 | [-10] | + | + | + | [-10] |
Сокурский Юрий Валентинович | 517 | + / + | + | [-10] | [-10] | Seizure |
Дойков Никита Владимирович | 417 | + / + | + | + | + | + |
Лукашкина Юлия Николаевна | 417 | [-10] | + | 0 | [-10] | [-10] |
Байбурин Валерий Тагирович | м118 | + / - [-5] | [-5] | 0 | [-10] | |
Дымов Григорий Андреевич | Stockholm university | + / + | [-5] | + | + | + |
Чинаев Николай Николаевич | DELETED | [-10] | [-5] | [-10] | [-10] | [-10] |
Хальман Михаил Анатольевич | 417 | + / + | + | + | [-5] | + |
Нижибицкий Евгений | аспВМК | - / 0 [-7] | + | + | + | + |
Остапец Андрей | аспВМК | - / + [-5] | + | + | + | + |
Лекции
Здесь будет выложена программа нового (2015 года) - по мере чтения курса.
Старые программы см. на страницах прошлых лет.
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Спецкурс «Прикладные задачи анализа данных» (2014 год)
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
- Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
- Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
- Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
- Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
- Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
- Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
- Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
- Статья Алгоритмы для рекомендательной системы: технология LENCOR.
- Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
- Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
- Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
- Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
Аналогичные курсы
- Data Science * Аналогичный (по духу) гарвардский курс
- Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.