Участник:Vokov/Интервью для ПостНауки 2017-09-27
Материал из MachineLearning.
(Новая: '''Источник: https://postnauka.ru/talks/80077 Константин Воронцов — Прогресс нейронных сетей''' ПостНаука рассказы...) |
м |
||
Строка 1: | Строка 1: | ||
- | '''Источник: [ | + | '''Источник: [http://postnauka.ru/talks/80077 Константин Воронцов — Прогресс нейронных сетей]''' |
ПостНаука рассказывает о современных технологиях в проекте «Банк знаний», созданном вместе с Корпоративным университетом Сбербанка. | ПостНаука рассказывает о современных технологиях в проекте «Банк знаний», созданном вместе с Корпоративным университетом Сбербанка. |
Версия 23:00, 27 сентября 2017
Источник: Константин Воронцов — Прогресс нейронных сетей
ПостНаука рассказывает о современных технологиях в проекте «Банк знаний», созданном вместе с Корпоративным университетом Сбербанка.
История машинного обучения берет начало в середине XX века, однако именно в последние несколько лет о нем стали говорить руководители корпораций, чиновники, предприниматели. О том, как бизнес адаптирует технологии машинного интеллекта, и о последних достижениях «самообучающихся» программ рассказывает математик Константин Воронцов.
— Если отделить разговоры от реальных темпов новых научных достижений, то как быстро идет прогресс в машинном обучении?
— Действительно, можно проследить отдельные вехи в технологиях машинного обучения и нейросетей. Помимо все новых побед машинного интеллекта над человеческим во все более сложных играх (от шахмат до го), одна из важнейших точек — конкурс ImageNet по распознаванию объектов на фотографиях, который стартовал в 2011 году. Обучить алгоритмы классифицировать изображения или находить объекты на изображениях — этим задачам уже десятки лет. До старта ImageNet прогресс в компьютерном зрении продвигался крайне медленно, на какие-то доли процента ежегодно, несмотря на значительные усилия огромного научного сообщества. В начале конкурса точность существовавших на тот момент методов не превышала 75%. Все понимали, что 25% ошибок — это плохой результат для реальных применений в бизнесе. Первый прорыв произошел в 2012 году, когда команда британского ученого Джеффри Хинтона, использовав свое решение на основе глубоких нейронных сетей, смогла сократить долю ошибочных классификаций с 25 до 12%. Вдвое. Это очень много. С тех пор в ImageNet никакие другие решения, кроме нейросетевых, не побеждали. С того момента мы видели постоянное улучшение качества распознавания. Долю ошибок к 2015 году удалось довести до 3,5%. Человек ошибается примерно в 5% случаев. То есть сегодня машины способны распознавать изображения лучше, чем человек. Когда такой рубеж взят, это сигнал для бизнеса: задачу можно решать автоматически. Прорывы такого же масштаба произошли и в других областях, например в распознавании речи. Представители бизнеса стали задумываться: если теперь программа может распознавать человеческую речь лучше, чем стенографист, то можно убрать сотрудника и поставить устройство, которое будет выдавать текст в электронном виде.
— Как быстро компании перешли от анализа возможностей технологий к внедрению?
— Довольно быстро. Развитие машинного обучения действительно открыло возможности создания множества сервисов, которые автоматизируют процессы и, без сомнения, необходимы и пользователям, и компаниям. Уже приходят в повседневную жизнь распознавание лиц людей в толпе, распознавание номерных знаков, автоматическое вождение автомобиля. Это понятные применения с очевидной пользой. Есть и более «рекламные» примеры — вроде конкурса Google по распознаванию кадров с котами в потоковом видео на Youtube. Это «игрушки», но они очень серьезные. От них полшага до технологий, которые позволяют, например, создавать автономные беспилотные летательные аппараты (БПЛА) и автономные системы вооружений. «Рывок качества» сегодня переживают также технологии понимания смысла текстов, управления производственными процессами, управления роботами. Многие сложные задачи, которые считались ранее прерогативой человеческого интеллекта, оказались теперь доступными для решения интеллектом машинным. Переход количества в качество произошел одновременно во многих сферах. Компьютерный сбор, хранение и анализ данных наконец стали повсеместными, да и уровень развития вычислительных и информационных технологий перешел тот рубеж, после которого очень сложные задачи стали решаться очень быстро. Теперь надо ожидать расцвета автоматизированных систем и новых, возможно, неожиданных их применений.
— Системы, имитирующие человеческий интеллект, в том числе нейросети, появились и развивались еще в 1940–1960-х. С чем связан качественный скачок в их эволюции в последние несколько лет?
— Три предпосылки сыграли свою роль одновременно. Во-первых, развитие электронной вычислительной техники. Возможность хранить, обрабатывать, передавать терабайты данных раньше была по карману только крупным корпорациям. Теперь это можно делать на персональном компьютере. Во-вторых, появился краудсорсинг — дешевый способ формирования огромных обучающих выборок усилиями тысяч пользователей через Интернет. Проект ImageNet не был бы столь успешным, если бы люди не классифицировали миллион картинок вручную. В-третьих, математика также не стояла на месте. Был накоплен огромный опыт в области математической статистики, численных методов оптимизации, машинного обучения, нейронных сетей. Появилось много эвристик для улучшения качества обучения. Эвристика — это греческое слово, однокоренное со словом «эврика». Это маленькое открытие, инженерный прием или неожиданное решение, найденное чаще всего экспериментальным путем, а не с помощью теории.
— Каковы примеры подобных эвристик?
— Например, ReLU — Rectified Linear Unit. Нейросети с точки зрения математики — это композиция линейных функций и нелинейной функции активации. Долгое время использовали функции активации вроде сигмоидной или арктангенса. А в какой-то момент решили попробовать очень простую кусочно-линейную функцию, составленную из двух полупрямых. Неожиданно выяснилось, что от этого и улучшается точность, и упрощается нейронная сеть, и в несколько раз уменьшается время обучения. Это решение было нестандартным на тот момент, на него надо было «наткнуться» в работе. Позже оно нашло и теоретические обоснования. Знаете, это напоминает истории, которые любят рассказывать химики: новый катализатор открыли благодаря тому, что ассистент помыл пробирки в хлорированной воде из-под крана вместо дистиллированной. Собственно, такие открытия происходят в любой науке. В теории нейронных сетей именно в последние десятилетия произошла целая серия подобных открытий, которые привели к качественно новым методам.
— Нарабатывать опыт в обучении искусственных нейронных сетей и делать выводы о наиболее эффективных алгоритмах позволил рост вычислительных возможностей?
— Да, и это важная составляющая успеха машинного обучения в последние годы. Десятки лет назад никто и предположить не мог, что взрывной рост возможностей нейронных сетей произойдет во многом благодаря развитию видеокарт и графических процессоров (GPU) и будет фактически проинвестирован десятками миллионов геймеров по всему миру, которые создали массовый спрос на высокопроизводительные вычисления. Сегодня, во многом благодаря этим технологиям, создаются системы компьютерного зрения и управления беспилотными автомобилями, диалоговые и рекомендательные системы, средства компьютерной и персонализированной медицины.
— Прогресс нейросетей в таком описании выглядит достаточно линейно. А с чем были связаны взлеты и падения нейросетей, которые вспоминают, например, в контексте зимы технологий машинного интеллекта (AI winter)?
— Нейронным сетям долгое время «не везло», и это весьма драматическая история. Волна энтузиазма, начавшаяся еще с Алана Тьюринга в 1950-е и экспериментов Фрэнка Розенблатта, сменилась волной разочарований после знаменитой книги американских ученых Минского и Пейперта «Персептроны», в которой указывалось на некоторые ограничения нейронных сетей. Все бросились говорить о перегретых ожиданиях, что «на самом деле ничего не работает». Урезалось финансирование научных групп, занимавшихся нейросетями. И такая волна была не одна, а целых четыре. Активность исследователей периодически замирала. Но всегда оставались группы энтузиастов, продолжавших работу и убежденных, что искусственные нейронные сети когда-нибудь возьмут свое. Ибо они являются моделью, пусть и грубой, естественной нейронной сети — человеческого мозга. В те годы оптимисты не имели технической возможности продемонстрировать всю мощь этого подхода. Сейчас, на наших глазах, происходит очередной переход количества в качество. Очевидно, не последний. Количественно мы все еще отстаем от естественного интеллекта, причем намного, на несколько порядков. В мозге человека около 86 млрд нейронов. Сейчас мы умеем строить нейронные сети из миллионов нейронов. Не так давно ученым удалось создать динамическую модель нервной системы нематоды (около 300 нейронов). Это круглый червь, симуляция работы его мозга — это воспроизведение движений вперед или назад, реагирование на свет, реакции на препятствия. Но лет тридцать тому назад и о таком не могли подумать.
Мне кажется, что больше падений не будет, а дальнейший прогресс нейронных сетей будет поступательным. Свершившиеся прорывы уже не могут проигнорировать даже самые убежденные скептики.
— Какую роль продолжают играть академические институты в развитии технологий машинного обучения, когда к работе с данными и искусственным интеллектом все больше подключаются корпорации? Например, основатели компании DeepMind, выпустившей AlphaGo и другие системы машинного интеллекта, долгое время занимались нейробиологией в Университетском колледже Лондона, а сегодня обучают нейросети в составе Google. Среди основателей OpenAI, нейросети которой обыгрывают киберспортсменов, тоже компании и крупные бизнесмены.
— Несомненно, основной прогресс продолжает идти в академической среде. Просто сегодня бизнес замечает и «берет в оборот» каждое достижение в течение считаных дней. Развитие и внедрение передовых технологий требует эффективного объединения усилий академического сообщества и бизнеса при поддержке со стороны государства. Например, в основе голосового ассистента Apple Siri лежат технологии распознавания речи, сорок лет развивавшиеся в рамках целого ряда проектов DARPA (Управления перспективных исследовательских проектов Министерства обороны США). В этих работах принимали участие ученые из десятка ведущих университетов США. Другая современная тенденция — корпорации все чаще делают свои разработки открытыми, предоставляя их не только академическому сообществу, но и всем желающим, включая прямых конкурентов. Например, Google позволяет свободно пользоваться своей технологией TensorFlow для построения нейронных сетей. Facebook развивает открытую технологию PyTorch, к разработке которой уже подключились многие компании и университеты. Персонал исследовательских подразделений многих крупных компаний, таких как Google, Facebook, Apple, — это, по сути, те же ученые, вчерашние аспиранты или постдоки, а часто и университетские профессора. Они много публикуются и активно участвуют в научных конференциях. Так что иногда трудно понять, где проходит грань между научным сообществом и бизнес-сообществом.
— Что сегодня тормозит развитие технологий машинного обучения?
— Я бы не сказал, что это развитие чем-то сдерживается сейчас. До сих пор в полном соответствии с законом Мура каждые два года происходило удвоение вычислительных мощностей. Старые алгоритмы автоматически получали новые возможности, возникали новые успешные приложения. Но экспоненциальный рост не может продолжаться до бесконечности, и когда-нибудь он дойдет до порога насыщения. Возможно, замедление этого роста уже началось. Возможно, появятся кардинально новые технологии, которые вернут экспоненциальный темп роста, например квантовые вычисления. Но это уже из области футурологии.
— Футурологи обычно больше говорят о сингулярности.
— Да, после книг и выступлений Рэймонда Курцвейла многие задумываются о том, что произойдет, когда темп развития технологий станет настолько быстрым, что человечество перестанет успевать за ним. Если говорить об искусственном интеллекте, то, следуя закону Мура, число нейронов искусственной нейронной сети превзойдет число нейронов в человеческом мозге примерно в 30-е годы нашего столетия, а совокупное число нейронов всего человечества — в 60-е годы. Возможно, когда машины станут умнее человека, должен произойти какой-то качественный перелом, человечество преобразится и никогда уже не будет прежним. Фантасты нам рисуют то восстание машин, то тотальную безработицу. Вообще-то, машины давно стали сильнее, быстрее, выносливее человека, но по-прежнему человек — главный враг сам себе, а вовсе не машины. Опасение, что люди останутся без работы, тоже старо как мир — вспомним движение луддитов начала XIX века, которые громили чулочные станки. Тем не менее подобные опасения до сих пор оказывались пустыми страшилками. Всегда во взаимоотношениях людей и технологий открывались новые аспекты, которые ломали прогнозы футурологов. Разумеется, это происходит не само собой, а в результате целенаправленных совместных усилий науки и бизнеса при активной поддержке государства.
Влияние искусственного интеллекта на экономику и общество уже активно обсуждается на государственном уровне. На Всемирном экономическом форуме в 2016 году Клаус Шваб, его президент, говорил, что человечество переживает сейчас четвертую технологическую революцию, которая «строится на вездесущем и мобильном интернете, искусственном интеллекте и машинном обучении». В октябре-декабре 2016 года Белый дом США выпустил серию из трех отчетов, посвященных будущему искусственного интеллекта, его влиянию на экономику страны и стратегическому плану исследований и разработок. То есть для американского правительства это вопросы государственной важности. Меня восхитила сама организация взаимодействия власти и науки. В мае 2016 года Национальный совет по науке и технике NSTC объявил цели и концепцию широкого обсуждения этих вопросов с научной общественностью. За три месяца Белый дом организовал пять научных конференций в ведущих научных центрах страны, в которых приняли участие несколько тысяч ученых. Результаты этих обсуждений были систематизированы в трех аналитических отчетах, очень ясно написанных, по 30–40 страниц каждый. Сейчас они свободно доступны в интернете. Замечу, что никакой кулуарности, когда надо опросить максимальное число яйцеголовых по стратегическим вопросам технологического развития страны.
— Какие выводы можно сделать о роли государства в развитии технологий машинного обучения из подобных отчетов? Насколько правительства разных стран всерьез озабочены проблемами влияния AI на самые разные сферы жизни?
— В отчетах Белого дома США прогнозируется огромная роль искусственного интеллекта в экономике будущего. Компьютерное зрение, разговорный интеллект, робототехника, интеллектуальные системы управления выводят автоматизацию на совершенно новый уровень. Предсказательное моделирование позволяет вводить принципы бережливого производства, вплоть до элементов плановой экономики. Например, чем точнее вы научились прогнозировать спрос, тем от большего числа складов можно избавиться. Дешевый сбор и анализ больших данных с помощью сенсорных сетей может в корне изменить управление сельским хозяйством, когда вы получаете возможность на одном мониторе отследить состояние каждой делянки или каждой коровы. Сервисы типа Uber и рекомендательные системы ведут к распределенной экономике, в которой продавец и покупатель связываются друг с другом быстро и напрямую. Огромное количество посредников, паразитирующих на несовершенстве обмена информацией между людьми, просто уйдет с рынков. Еще одна задача ближайших лет — переход к пожизненному хранению персональных медицинских данных каждого индивида и улучшение клинических практик на основе их анализа. Похожая задача — накопление персональной информации об образовании, достижениях, интересах и способностях каждого человека с раннего детства. Технологии социальной инженерии и анализа больших данных можно направить на выявление талантов, персонализацию образовательных траекторий, трудоустройство и формирование коллективов под проекты. Это автоматизированная биржа труда, которая имеет огромный потенциал и способна изменить облик общества.
Осознавая важность этих изменений, правительство США постоянно увеличивает государственное финансирование исследований и разработок в области искусственного интеллекта. Сейчас это порядка одного миллиарда долларов в год. В одном из отчетов рекомендовалось увеличить эту сумму как минимум вдвое. Всего в отчете двадцать три рекомендации. Из них первые две мне кажутся принципиально важными. Под номером один рекомендация государственным и частным компаниям активнее развивать партнерство с университетами и научными коллективами для эффективного использования своих данных. Номер два — не бояться открывать свои данные, чтобы в сообществе исследователей не прекращалась конкуренция за максимальное качество решений. Еще одна рекомендация — вести мониторинг развития искусственного интеллекта в других странах. Мне запомнилась одна фраза, что страны с сильными R&D (исследованиями и разработками) в области искусственного интеллекта займут лидирующие позиции в автоматизированной экономике будущего. И конечно, американцев заботит прежде всего собственное лидерство.
— Какие методы машинного обучения сегодня используются наиболее активно? Насколько заслужен шум вокруг нейросетей?
— В науке очень важно разнообразие. Все подходы и методы должны развиваться, несмотря на изменчивость научной моды. Давайте говорить о пяти научных направлениях: классическом математическом моделировании, статистическом анализе данных, машинном обучении, нейронных сетях и, наконец, глубоких нейронных сети. У каждого из них свои границы применимости, достоинства и ограничения. Поясню эти пять понятий.
Математическое моделирование в естественных науках всегда было нацелено на то, чтобы учесть побольше знаний о мире и поточнее описать их на языке уравнений и формул. Получение и обработка данных были дорогим удовольствием, они использовались лишь для проверки моделей и определения их числовых параметров. Это я и назвал классическим математическим моделированием.
В наш век ситуация перевернулась: собрать много данных стало дешевле, чем строить сложные математические модели. Стали более востребованными методы прикладного статистического анализа данных. Среди них регрессионный анализ, дискриминантный анализ, кластерный анализ, факторный анализ. Они стоят на фундаменте теории вероятностей и математической статистики. Однако реальные задачи часто настолько сложны, что описать их строго на языке вероятностей не получается.
Машинное обучение вобрало лучшие достижения математической и прикладной статистики, более свободно и непредвзято объединяя их с нестрогими эвристиками и инженерным подходом. Возникла большая область математического моделирования со своей методологией, хорошо приспособленная для решения действительно трудных задач в сложно формализуемых областях, когда данных много, а знаний мало. С новой методологией оказалось возможным подойти к таким задачам, в которых выписывать математические модели в классическом понимании вообще никому не удавалось.
Нейронная сеть — это одна из эвристик в машинном обучении. Это универсальная модель, с помощью которой можно описать практически любое явление. Чем больше данных, тем точнее будет описание. Это композиция функций, имеющих некоторые аналогии с устройством нервных клеток (нейронов), а вся композиция напоминает устройство головного мозга человека. В этих функциях есть параметры, которые можно настроить (обучить) по имеющимся данным. Чем сложнее сеть, тем больше в ней параметров, тем больше требуется данных для ее обучения. Обычно мы не понимаем, какую связь имеет обученная нейронная сеть с моделируемым явлением. Не понимаем в деталях, почему она работает. Не можем требовать от нее объяснений ее решений или прогнозов. Не можем предугадать, в каких случаях она способна дать сбой.
Глубокие нейронные сети появились не так давно, в последнее десятилетие. До этого математики доказали, что трех слоев нейронной сети вполне достаточно для решения любых задач. Но природа подсказывает нам другое: если поделить время реакции человека на время прохождения нервного импульса через один нейрон, то получится примерно десять-двадцать. Это грубая оценка числа слоев нашей естественной нейронной сети, ее глубины. Видимо, природа неспроста так распорядилась, и это для чего-то нужно. Действительно, выяснилось, что сложные задачи так решать удобнее. Начальные слои в нейронной сети играют роль преобразователей, способных исходный сложно устроенный объект (например, изображение, звуковой сигнал или текст) перевести в набор признаков, а с такими векторными признаковыми описаниями объектов мы уже привыкли обращаться в прикладной статистике и машинном обучении. Признаки (features) всегда придумывали мы, исследователи и инженеры, исходя из понимания сути задачи. В этом заключался важный этап моделирования, и в каждой прикладной задаче это уникальная творческая работа. Глубокие нейронные сети претендуют на то, чтобы полностью автоматизировать этот этап. Если раньше мы разрабатывали признаки (feature engineering), то с приходом глубоких нейронных сетей мы стали разрабатывать архитектуры сетей (architecture engineering). Это более высокоуровневая деятельность в том смысле, что теперь не надо вдумываться в слишком мелкие детали решаемой задачи. Можно знать меньше, но данных собирать больше, и решать задачу точнее.
Тут мы подходим к важному философскому вопросу, который обсуждается среди ученых уже не одно десятилетие: возможно ли заменить моделирование вычислением? То и другое является инструментом познания и одновременно способом решения практических задач. Классическое моделирование дает больше понимания, но наталкивается на барьер сложности задач. Нейронные сети пробивают этот барьер и позволяют решать очень сложные практические задачи, да еще и находить решения намного быстрее. Но они не дают нам знаний о том, как это происходит.
Вернемся к вопросу о востребованности различных методов. Хайп вокруг нейросетей приводит к тому, что во многих ситуациях старые добрые методы вытесняются нейросетями. Если это не приводит к значимым улучшениям точности решения, то вряд ли стоит жертвовать понятностью модели и возможностью получать какие-то знания о мире в процессе решения или из структуры построенной модели.
— Как меняются инструменты Business Intelligence?
Машинное обучение действительно приходит во все сферы бизнеса для автоматизации принятия решений и предсказательного моделирования. Это началось намного раньше, чем заговорили о больших данных. Практически в любой компании уже налажен компьютерный сбор данных и накапливается история бизнес-процессов, поведения контрагентов и клиентов, влияния внешних факторов. Методы машинного обучения и предсказательного моделирования позволяют понимать, что происходит в операционных процессах, как они будут происходить дальше, какие решения лучше принимать. По мере того как данных становится все больше, меняются и методы. Они требуют все больших вычислительных ресурсов, все более сложных моделей и инструментов.
Есть еще одно важное и не столь очевидное направление развития. Все чаще для предсказательного моделирования используются методы обучения с подкреплением (reinforcement learning) и активного обучения (active learning). Это виды обучения, работающие в условиях постоянно поступающих потоковых данных. Возможно, именно с ними будет связан следующий прорыв. Раньше предсказательная аналитика работала так: мы собираем большую базу данных, скачиваем определенный срез данных, выгружаем на свой рабочий компьютер, строим в привычной нам среде предсказательную модель, проверяем ее и переносим обратно в продакшен, то есть встраиваем в живой бизнес-процесс. Цикл обновления модели может занимать от нескольких дней до нескольких месяцев. Бизнес это уже не устраивает, особенно в электронной коммерции, где модель клиента должна перестраиваться после каждого его действия.
Обучение с подкреплением очень напоминает то, как учится человек. Он принимает решения на основе своего опыта, совершает поступки, осознает их последствия, переосмысляет свой опыт и корректирует модель принятия решений. Такие методы машинного обучения были известны довольно давно. Сейчас у них расширяется спектр приложений, они проходят период бурного развития.
Активное обучение — это еще одна разновидность динамического обучения, но теперь обучаемая модель сама решает, на каком следующем объекте спросить у учителя правильный ответ.
Все это приводит к трансформации инструментов предсказательного моделирования. Раньше были отдельные этапы обучения и тестирования, время подумать над моделью. Теперь постоянное A/B-тестирование и бесконечно улучшаемая модель, и это новый уровень адаптивности моделей. На этом уровне аналитик исключается непосредственно из бизнес-процесса обновления моделей, он только мониторит работу механизма и при необходимости что-то исправляет и усовершенствует.
— Аналитики данных осознают этот переход?
— Да, конечно. Но это не означает, что аналитики останутся без работы. Труд исследователей, инженеров, аналитиков никуда не денется, он просто станет другим — в чем-то сложнее, в чем-то увлекательнее, и уж точно ответственнее. Им придется постоянно проводить эксперименты и контролировать системы, которые должны не только продолжать работать, но и самообучаться по новым данным в непрерывном режиме.
— А управленцы в бизнесе успевают за изменениями?
— В бизнесе остро не хватает людей, которые хорошо представляли бы себе, что такое машинное обучение и предсказательная аналитика, каковы их возможности и ограничения. Внедрение машинного обучения часто упирается в проблемы полноты и чистоты данных и отсутствия четких постановок аналитических задач со стороны бизнеса. Например, интернет-магазин всегда собирал статистику покупок пользователей, но для предсказательной модели нужно было следить еще и за заходами пользователей на конкретные страницы. А эти данные никогда не собирали, потому что, когда систему внедряли, никто в компании не знал, что «случится искусственный интеллект» и понадобятся еще и такие данные. Пока будет доработана система и накопятся необходимые данные, пройдет много времени. Другой пример: для планирования объемов закупок используются стандартные методы прогнозирования временных рядов. Они минимизируют средний квадрат ошибки прогнозов. Экономический эффект можно повысить, если минимизировать суммарные потери в рублях. Но для вычисления этого критерия нужны достоверные данные о торговых наценках и стоимости хранения всех товаров. Такая информация имеется в базе данных, но менеджеры вводили ее неточно и не всегда, так как она была редко нужна. Это проблема «грязных данных» — такие данные не подходят для внедрения аналитического решения. Возможности предсказательной аналитики велики, но заставляют менеджмент думать с опережением и ставить задачи с математической четкостью. Для этого в компании должны быть налажены бизнес-процессы, обеспечивающие полноту и чистоту данных, и сотрудники должны обладать культурой обращения с данными.
— Насколько близка бизнесменам стратегия открытых данных, к которой идут мировые IT-корпорации?
— Вы затронули действительно очень важную тему. Открывая часть своих данных, компания бросает вызов отраслевому и научному сообществу: кто сможет быстрее и точнее решить поставленную задачу. Обычно это происходит в виде соревнования, в котором четко формулируются условия конкурса и критерий, который нужно оптимизировать. Конкурсы выгодны всем. Компания быстро получает ответы на вопросы, каков предельно достижимый уровень качества и какие команды обладают необходимыми компетенциями. Можно найти потенциальных исполнителей, о существовании которых менеджмент компании даже не подозревал. Научные коллективы получают возможность заявить о себе и проверить свои теоретические наработки в практической задаче. Рядовые «решатели» задач, включая студентов, получают возможность самореализации и шанс записать победу себе в портфолио, повысив свой статус на рынке труда. Университеты получают возможность готовить специалистов по материалам современных прикладных задач с открытых конкурсов.
К сожалению, люди слишком медленно осознают эти новые возможности. Мешает и инертность мышления, и недостаток компетенций. Компании часто боятся открывать свои данные, которые слишком дорого им достались. Однако данные, не используемые для решения бизнес-задач, на самом деле не стоят ничего. Службы информационной безопасности часто отметают саму идею открытых данных, опасаясь конкурентов или юридических проблем, например, с разглашением персональных данных. Привычка минимизировать риски в современной цифровой экономике может сыграть с компанией злую шутку: игнорируя новые возможности, компания рискует проиграть конкурентную борьбу. Нужна большая просветительская и образовательная работа, чтобы преодолевать инерцию мышления прошлого века.
Одно из популярных объяснений здесь такое. Допустим, компания ищет поставщика аналитического решения. В чем обычно заинтересован подрядчик? Использовать свое готовое решение, занизить требования по качеству, завысить сроки и бюджет. Крупная международная компания выставит счет с кучей нулей. Среди молодых компаний и стартапов непонятно, какой команде действительно можно доверить проект. Либо потери, либо риски. Совсем другая ситуация возникает, когда заказчик открывает данные и проводит конкурс. За дело берется все профессиональное сообщество, на истинно конкурентной основе, без тендеров и бюрократии, причем заказчик получает возможность сотрудничества с лучшими командами и отдельными специалистами.
Один из первых крупных конкурсов провела компания Netflix, занимающаяся прокатом видео через интернет, в 2006 году. На тот момент около 70% прибыли компании приходилось на персональные рекомендации. В конкурсном задании требовалось улучшить качество рекомендаций хотя бы на 10%. Призовой фонд был беспрецедентным на тот момент — миллион долларов США. Чтобы добиться этих 10%, сотни исследовательских команд соревновались три года. За это время научное сообщество сделало гигантское продвижение в области рекомендательных систем. Про этот класс задач было понято, кажется, все, что только можно было понять. По окончании конкурса организаторы не стесняясь заявляли, что они никогда не смогли бы нанять всего за миллион долларов такую огромную армию высококвалифицированных специалистов — профессоров, инженеров, постдоков, студентов. Причем никто из ученых не чувствовал себя обманутым, так как они получили возможность продвинуться в своих исследованиях.
Следом за Netflix бизнес быстро осознал, в чем выгода конкурсов. Сейчас основная масса международных конкурсов по анализу данных проводится на платформе kaggle.com].
— Как компаниям снизить риски при переходе к открытым данным?
— Чтобы конкурс действительно заинтересовал профессиональные команды на платформах вроде Kaggle, нужно четко поставить задачу, описать «ДНК задачи»: что Дано, что Найти и каков Критерий качества результата. Критерии должны быть записаны математически и всем понятны. Если этого не сделать, конкурс может просто не состояться, не принести компании никакой пользы.
Важнейший вопрос — как именно открывать данные? Не имеет смысла предоставлять слишком мало данных, поскольку решения на малой части данных и на полном объеме больших данных могут качественно различаться. Особенное коварство больших данных в том, что на них многие методы ведут себя контр-интуитивно: методы, которые раньше хорошо работали на малых и средних данных, здесь перестают работать, и наоборот. Если же открывать большой объем данных, то им могут воспользоваться конкуренты. Как всегда, надо искать золотую середину. Какие-то критичные данные раскрывать нельзя, например персональные данные. К счастью, для большинства аналитических задач и не нужно знать, кто именно является клиентом банка, клиники или бонусной программы. Но здесь есть масса подводных камней. Например, в городе из десяти тысяч человек только один взял крупный ипотечный кредит. Его легко вычислить, значит, мы не должны допустить, чтобы запись об этом клиенте попала в открытые данные. Возникает новый тип задач: как подготовить выборку данных, чтобы нужный целевой признак прогнозировался максимально точно, но в то же время другие признаки были защищены и не восстанавливались никакими методами? Такие задачи получили название обучение с противником (adversarial learning).
— Часто ли бывает, что открытые данные оказываются неадекватными или что конкурс не оправдывает ожиданий организатора?
— Да, бывает. За примерами далеко ходить не надо. Тот же Netflix, как позже выяснилось, взял слишком искусственный критерий для конкурсной задачи. Они предложили минимизировать среднеквадратичную ошибку предсказания рейтингов фильмов. Чтобы удовлетворить этому критерию, приходилось строить очень сложные решения. Если же исходить из критерия повышения прибыли бизнеса, критерий надо строить совсем по-другому. Чудо в том, что в этом случае лучше всего работают хорошо известные и довольно простые методы вроде метода главных компонент, которые участники конкурса перепробовали в первые же месяцы. То есть если бы критерий был выбран правильно, решение нашлось бы гораздо быстрее. Но вряд ли кто-то осознавал эту ситуацию на момент старта конкурса.
Плохо, когда данные открывают без четких постановок задач. Данные есть, а что найти и каков критерий — не уточняется. Ученым предоставляется свобода творчества. Но без конкурентности мы не получаем ни волны энтузиазма, ни резонанса в профессиональном сообществе, ни информации о центрах компетенций. Лежат себе открытые данные и никого не интересуют. В таких случаях лучше поставить десяток разных простых задач на пробу, потом постепенно уточнить постановки. Умение ставить задачи и выводить их на открытые конкурсы — это та часть культуры анализа данных, которая необходима менеджерам компаний и государственным чиновникам в эпоху цифровой экономики.
— Как открытые конкурсы подстегивают развитие технологий машинного обучения в целом?
— Конкурсы консолидируют профессиональное сообщество и дают материалы для новых открытий. Мы не раз слышали лозунги: «Искусственный интеллект — это нефть XXI века» или «Таланты — это нефть XXI века». Конкурсы анализа данных — это работающий механизм, реализующий эти лозунги совершенно конкретным образом. Они являются если не двигателем прогресса, то уж точно хорошей смазкой для него, стимулируя развитие прикладных направлений и самого машинного обучения.
Данные открытых конкурсов можно использовать в университетах для подготовки специалистов практически в любых отраслях. Всюду, куда пришел компьютерный сбор и накопление данных, следом приходят технологии анализа данных, машинного обучения и искусственного интеллекта. Например, при подготовке специалистов нефтегазовой отрасли можно организовать студенческий конкурс по распознаванию предаварийных состояний бурового инструмента на реальных данных со скважин. Это живая практическая задача, она увлекает и показывает взаимосвязи теории и практики, отраслевой и фундаментальной науки. И таких задач сотни в любой отрасли.
Вообще, в цифровой экономике конкурсы на открытых данных могут стать неким «хабом», через который происходит взаимодействие бизнеса, науки и образования.
— Достижения в машинном обучении вернут России технооптимизм?
— Думаю, что такой шанс есть, важно его не упустить. Сейчас наблюдается взрывной рост интереса к машинному обучению — именно потому, что оно находит применение повсюду. Определенно, анализ данных — это профессия будущего.
Когда экономика слаба, простые задачи решаются простыми методами. Потребности в исследованиях сокращаются, да и денег на них нет. Начинает казаться, что наука вообще не нужна. В 1990-е годы нам внушали национальный комплекс неполноценности, и дискредитация науки была частью этой пропагандистской кампании. Есть несколько расхожих предубеждений, которые отражают пренебрежительное отношение общества к собственной науке: «Наука — это удовлетворение своего любопытства за чужой счет», «На практике работают только простые решения», «Западные ученые отвечают на вопрос “как”, а российские — на вопрос “почему”», «Если ты такой умный, то почему ты такой бедный» и так далее. Главная функция этих демотиваторов — переворачивать систему ценностей с ног на голову. Правды в них мало.
Мой отец был профессором МИСиС, деканом технологического факультета и одним из его основателей. В 1980-е годы я был школьником и хорошо помню атмосферу, отношение к науке в нашей семье и среди коллег отца. Абсолютно не подвергалась сомнению очевидная истина, что наука — это технологическая основа существования любого развитого государства. В советское время круче карьеры ученого могла быть только партийная карьера.
Сейчас престиж науки постепенно возвращается. Но времена изменились, и от науки требуется больше прикладных результатов, эффективности и открытости. Конкурсы на открытых данных и машинное обучение могут служить точкой входа во многие прикладные области и давать будущим исследователям материал для практической деятельности. Но для этого нужна популяризация конкурсных задач, рассчитанная на широкую аудиторию, включая школьников и школьных учителей. Kaggle.com этим не занимается, они ориентированы на международное профессиональное сообщество. Когда начинается очередной конкурс, его условия и саму задачу они объясняют весьма скупо.
У меня был очень позитивный опыт прошлым летом в проектной смене #Сочи.Сириус. Я вел проект по анализу электрокардиограмм для медицинской диагностики. У коллег были проекты по рекомендательным системам, информационному поиску, биоинформатике. Мы объясняли эти задачи школьникам старших классов на доступном для них уровне, и за три недели они не только освоились с языком программирования Python, но сами написали алгоритмы, посоревновались в конкурсе и даже сделали свои собственные небольшие открытия. Очень важно устранять ментальный разрыв между теорией и практикой. Когда ребятам показываешь, что математика нужна не для оценок, а чтобы лечить людей, у них возникают мотивации совершенно иного уровня. Сложное не становится простым, но оно становится интересным и преодолимым.