Извлекаем пользу из Big Data (Проектная смена, СочиСириус, 2016)
Материал из MachineLearning.
Извлекаем пользу из Big Data — одно из семи направлений проектной смены 1-24 июля 2016 в СочиСириус для школьников, перешедших в 9, 10, 11 классы, интересующихся математикой, комбинаторикой, программированием и анализом данных.
Проектные команды математиков и программистов решают красивые математические задачи и анализируют, моделируют и интерпретируют большие данные, возникающие в рамках этих задач.
Лекционные курсы направления Big Data
Теория вероятностей
- Райгородский Андрей Михайлович, главный научный сотрудник и заведующий лабораторией продвинутой комбинаторики и сетевых приложений МФТИ, федеральный профессор математики, заведующий кафедрой дискретной математики МФТИ, профессор механико-математического факультета МГУ, руководитель исследовательской группы в Яндексе
Машинное обучение
- Воронцов Константин Вячеславович, доктор физ-мат наук, профессор РАН (Вычислительный центр ФИЦ ИУ РАН, МФТИ, Яндекс, Форексис)
- 5 июля 2016. Машинное обучение в эпоху больших данных.
- 6 июля 2016. Линейные модели регрессии и классификации.
- 8 июля 2016. Метрические методы классификации, регрессии и кластеризации.
- 9 июля 2016. Методы понижения размерности и рекомендательные системы.
Оптимизация
- Гасников Александр Владимирович, кандидат физ-мат наук (МФТИ, ИППИ РАН)
Расширенная версия видеоматериалов к планируемому курсу лекций имеется здесь. Статьи, на основе которых построены лекции, доступны здесь. В качестве одного из проектов школьникам предлагается разработать эффективный алгоритм поиска вектора PageRank, исходя из уже имеющихся наработок, см. Таблицу 1 здесь. Другой проект связан с эффективным решением больших систем линейных уравнений с равномерно разреженной (по строкам и столбцам) матрицей, см. модификацию метода условного градиента в этой статье. Также школьникам предлагается проект разработки эффективных алгоритмов поиска равновесий в больших транспортных сетях, см. статью.
- 5 июля 2016. Как бороться с пробками?.
Видео лекции 6 июля 2016 г.
Биоинформатика
- Яковлев Павел Андреевич, директор департамента вычислительной биологии, компания Биокад
- Еричева Елена Витальевна, компания Биокад
Программирование на языке Питон
- Павел Темирчев. Материалы лекций по Питону.
- Эмели Драль. Лекция по научной визуализации.
Проектная деятельность
Предсказание музыкальных предпочтений
- Кантор Виктор, руководитель группы в Яндексе
- Зухба Анастасия, преподаватель МФТИ
Задачи и алгоритмы рекомендательных систем (на примере данных Яндекс.Музыки). Проектная команда реализует несколько рекомендательных алгоритмов и оценивает их качество. Команда выполняет инфраструктурную часть проекта совместно, затем участники раздельно реализуют свои алгоритмы в рамках внутрикомандного соревнования.
Предсказание эмоциональной окраски отзывов
- Драль Эмели, преподаватель НИУ ВШЭ, руководитель группы в Яндексе
- Бухаров Олег, преподаватель НИУ ВШЭ
Задачи и алгоритмы анализа текстов (на примере классификации отзывов на КиноПоиске). Проектная команда реализует несколько алгоритмов классификации текстов и оценивает их качество. Команда выполняет инфраструктурную часть проекта совместно, затем участники раздельно реализуют свои алгоритмы в рамках внутрикомандного соревнования.
Моделирование случайных явлений
- Лемтюжникова Дарья, преподаватель МПГУ, МФТИ
- Зухба Анастасия, преподаватель МФТИ
- Темирчев Павел, студент магистратуры ВМК МГУ
Имитационное моделирование физических явлений, экологических и социальных процессов, семантики больших текстовых коллекций. Реализация имитационных моделей распространения информации в сетевых сообществах. Команда выполняет инфраструктурную часть проекта совместно, затем участники раздельно реализуют модели различных явлений.
Медицинская диагностика по электрокардиограмме
- Воронцов Константин Вячеславович, доктор физ-мат наук, профессор РАН (Вычислительный центр ФИЦ ИУ РАН, МФТИ, Яндекс, Форексис)
- Темирчев Павел, студент магистратуры ВМК МГУ
Задачи и алгоритмы машинного обучения для диагностики заболеваний по электрокардиограмме. Идея проекта основана на технологии информационного анализа электрокардиосигналов, предложенной проф. В.М.Успенским. Участники проекта реализуют свои алгоритмы диагностики в рамках внутрикомандного соревнования на платформе Kaggle in Class, затем проектная команда выполняет ряд исследований, направленных на повышение качества диагностики.
- 2 июля 2016. Машинное обучение: распознавание языка текста и диагностика по электрокардиограмме.
- 6-7 июля 2016. Введение в проект.
- Задания по проекту.
- Шаблон презентации для ShareLaTeX.
- Финальная презентация по проекту.
О способах решения задач оптимизации сверхбольших размеров
- Гасников Александр Владимирович, кандидат физ-мат наук (МФТИ, ИППИ РАН)
Большое количество задач анализа данных и моделирования сетей (компьютерных, транспортных) приводят к задачам оптимизации (чтобы найти оптимальные значения неизвестных параметров или найти равновесную конфигурацию). В качестве примеров конкретных приложений будут рассмотрены задачи поиска вектора PageRank, задача восстановления матрицы корреспонденций в большой компьютерной сети по замерам потоков на линках (ребрах), задача поиска равновесия в модели распределения транспортных потоков по путям крупного мегаполиса и задача «сжатия измерений».
- 22 июля 2016. PageRank.
Модели больших сетей и классические модели случайных графов
- Жуковский Максим Евгеньевич, кандидат физ-мат наук (МФТИ, Яндекс)
Свойства некоторых больших сетей близки к асимптотическим свойствам случайных графов. Тем не менее, как правило, гораздо проще изучать характеристики таких случайных структур. В проекте мы разберемся в том, как подобные модели применяются в задачах поиска страниц в Интернете. Другое применение теории случайных графов – вероятностный метод. Решения некоторых комбинаторных задач основаны на том, что случайные графы (как правило, в биномиальной модели и равномерной модели Эрдеша-Реньи) обладают определенными свойствами с положительными вероятностями. Пожалуй, наиболее изученным классом свойств в контексте асимптотических вероятностей является класс свойств первого порядка. В проектах мы уделим большое внимание этой теме (в частности, законам нуля или единицы для свойств первого порядка).
Криптография на решётках
- Герман Олег Николаевич, доктор физ-мат наук, профессор (механико-математический факультет МГУ им М.В. Ломоносова)
В рамках данного проекта мы познакомимся с такими науками как теория решёток, геометрия чисел, теория выпуклых многогранников и теория двойственности. Эти области математики важны как для фундаментальных исследований - например, их можно использовать для доказательства иррациональности и трансцендентности чисел, так и для прикладных задач - решётки активно используются для задач факторизации чисел и многочленов, а также для вычисления дискретных логарифмов. При этом, для того, чтобы начать изучать эти науки, достаточно хорошо владеть школьным курсом математики.
Алгоритмы на больших графах
- Райгородский Андрей Михайлович, главный научный сотрудник и заведующий лабораторией продвинутой комбинаторики и сетевых приложений МФТИ, федеральный профессор математики, заведующий кафедрой дискретной математики МФТИ, профессор механико-математического факультета МГУ, руководитель исследовательской группы в Яндексе
В рамках проектов мы научимся работать со сложными задачами на больших графах и на их случайных аналогах. Полученные результаты мы применим к классическим задачам комбинаторной геометрии
Задача о справедливом дележе
- Мусатов Даниил Владимирович, кандидат физ-мат наук (МФТИ, Яндекс, ЛИСОМО РЭШ, КФУ)
Всем известно, как по-честному поделить пирог на две части: один делит, другой выбирает. А что делать, если делящих больше двух? При этом у них разные вкусы и, возможно, внутри пирога есть неделимые объекты. Эту задачу можно решать на трёх уровнях: математическом, алгоритмическом и теоретико-игровом. На математическом уровне вопрос только в существовании: можно ли найти делёж, удовлетворяющий определённым свойствам? Например, можно ли добиться, чтобы каждый из n участников считал, что получил хотя бы 1/n от пирога? Или можно ли сделать так, чтобы никто не завидовал чужому куску? На алгоритмическом уровне вопрос заключается в построении протокола, выявляющего подходящий делёж. Желательно, чтобы этот алгоритм работал достаточно быстро. На теоретико-игровом уровне разбирается вопрос о том, что будет, если участники начнут отклоняться от протокола: можно ли получить больше, соврав о своих предпочтениях?
Классические методы теории кодирования
- Купавский Андрей Борисович, кандидат физ-мат наук (МФТИ, Гренобль)
Проект посвящен изучению задач экстремальной теории множеств. Типичная задача такого рода звучит примерно так: насколько большим может быть семейство подмножеств данного конечного множества, если подмножества этого семейства удовлетворяют некоторым ограничениям (например, попарно пересекаются). Мы разберем несколько базовых методов теории множеств, которые включают метод циклов Катоны, компрессию, теорему о тенях. С их помощью получим как различные классические результаты, такие, как теорему Эрдеша-Ко-Радо, Хилтона-Милнера, лемму Сауэра и Шеллаха, так и результаты более современные.
Ошибки в последовательностях
- Яковлев Павел Андреевич, директор департамента вычислительной биологии, компания Биокад
- Еричева Елена Витальевна, старший специалист по анализу данных, компания Биокад
Популяционное исследование с помощью секвенирования позволяет изучать как выглядят различные мутантные формы генов в разных людях. Особенно интересно изучение генов антител, стремительно мутирующих даже в одном человеке. Для этого используется технология таргетного (нацеленного) секвенирования, когда подготавливается большое количество фрагментов ДНК, предположительно содержащих антитела, которые далее секвенируются. К сожалению, на всех этапах этой работы могут происходить ошибки, которые «портят» получившиеся прочтения антител. Целью проекта является исправление таких ошибок для получения как можно большего репертуара интересующих нас генов.
Дополнительные материалы
Как делать презентации
- Подготовка презентаций (рекомендации).
- Алексей Каптерев. Смерть через PowerPoint (6 минут видео).
- Алексей Каптерев. О мастерстве презентации (2.5 минут видео).
- Алексей Каптерев. Что такое правильная история (19 минут видео).
- Алексей Каптерев. Анонс курса «Мастерство презентаций» (12 минут видео).
- Chicken chicken chicken — некоторые шаблоны, часто употребляемые в научных презентациях (4 минуты видео).