Участник:Vokov/Интервью для РИА Новости 2020-05-25
Материал из MachineLearning.
Источник: «Константин Воронцов: искусственный интеллект освободит учителя от рутины»
Конкурс Up Great ПРО//ЧТЕНИЕ, организованный РВК, Фондом «Сколково» и АСИ, готовится взять важный технологический барьер. Искусственный интеллект должен «понять» текст, написанный человеком, выявив смысловые, логические и фактические ошибки на уровне школьного учителя, проверяющего сочинение в условиях ограниченного времени. Корреспондент РИА Новости Олег Никишенков выяснил подробности у автора технического регламента конкурса, заведующего лабораторией машинного интеллекта Центра компетенций НТИ «Искусственный интеллект» МФТИ Константина Воронцова.
- Какие научные и технологические задачи поможет решить конкурс ПРО//ЧТЕНИЕ? Можно ли спроецировать этот конкурс на общемировой тренд в развитии ИИ?
- Речь идет о такой области технологий искусственного интеллекта, как понимание компьютером естественного человеческого языка. В самом общем смысле эта задача слишком широкая, и она должна конкретизироваться. Мы подошли к ней с позиции нахождения искусственным интеллектом смысловых ошибок в тексте. Здесь мы играем на опережение: за эту задачу пока мало кто берется, потому что она слишком сложная. Но она важна и востребована, так что перед нами открывается возможность не плестись в хвосте мировых ИТ лидеров, а сделать настоящий прорыв на глобальном уровне.
Немаловажно, что конкурсом предусмотрено разделение на системы обработки русскоязычных и англоязычных текстов, а участие в соревновании могут принять как российские, так и зарубежные команды. При этом для решения задачи разработчики могут использовать любые программные средства и вычислительные мощности. Никаких ограничений, всё максимально открыто. Регистрация проводится на сайте Up Great.
- В чем заключается технологический барьер ПРО//ЧТЕНИЯ? Каковы критерии его преодоления? И в какой момент финальных испытаний организаторы конкурса смогут констатировать: «Да, барьер взят»?
- Задача команд состоит в том, чтобы создать систему, которая быстро выявляет смысловые ошибки и дает им объяснение. В частности, речь идет о неправильном или недостаточном раскрытии темы, разрывах в логике, фактических ошибках. Мы остановились на конкретном виде заданий – сочинениях, которые школьники пишут в рамках ЕГЭ. Почему именно ЕГЭ? Во-первых, уже существуют устоявшиеся годами правила, поэтому задачу проверки легче формализовать. Во-вторых, если в результате конкурса нам удастся создать инструмент, помогающий преподавателям быстрее и лучше проверять работы, то в масштабах страны может получиться огромная экономия трудозатрат.
Задания ЕГЭ проверяют, как правило, два-три эксперта. И зачастую они расходятся в оценках выполненной школьником работы. Алгоритмы, которые создадут участники конкурса, в своих оценках сочинений должны расходиться не сильнее, чем проверявшие их люди. Таким образом, технологический барьер ПРО//ЧТЕНИЯ будет считаться пройденным, если алгоритм сработает на уровне профессиональных экспертов.
- Материалы конкурса изобилуют терминами, которые могут быть непонятны непрофессионалам: «разметка датасетов», «выборка данных». Поясните, пожалуйста, смысл этих терминов применительно к конкурсу. Как эти элементы помогут решению поставленной задачи – анализировать текст не хуже человека?
- Эта терминология принята в машинном обучении и анализе текстов. Размеченная выборка содержит данные о том, как люди решали некоторую достаточно трудную интеллектуальную задачу. Машинное обучение строит алгоритм, который будет решать эту задачу примерно так же. На отдельный тестовой выборке проверяется, насколько хорошо алгоритму это удаётся. По этому принципу устроены все конкурсы по анализу данных. На платформе Kaggle, например, проводятся сотни соревнований по самым разным задачам.
В нашем случае участникам конкурса будут предоставлены размеченные школьные сочинения, которые проверили сертифицированные педагоги, не один год работающие с ЕГЭ. Обычно, проверяя школьное сочинение, учитель отмечает ошибки красной ручкой и пишет на полях замечания. Наш язык разметки позволяет сохранить эти пометки в тексте так, чтобы они были понятны и человеку, и компьютеру. Получив выборку размеченных сочинений, алгоритм должен понять, по каким принципам учителя отмечали ошибки, и научиться делать эту работу не хуже.
«Разметка датасета» в нашем случае – это организация сбора и накопления в цифровом виде проверенных ученических работ. Сейчас разметку датасета организует оператор конкурса - РВК. Надеюсь, что в ходе конкурса будет создан отдельный сервис для удалённой работы репетиторов ЕГЭ. Возможно, это станет самостоятельным бизнесом. Искусственный интеллект будет помогать репетиторам делать проверки качественнее и быстрее, параллельно обучаясь по накопленным большим данным.
- Какой была реакция учителей, которых вы пригласили к созданию выборок, не было ли у них опасений из-за появления ИИ в процессе оценки ЕГЭ?
- Технологии ИИ помогают людям решать их рутинные задачи. ИИ не может заменить живого общения учителя и ученика. Вообще, «искусственный интеллект» - это эффектный термин, появившийся в середине прошлого века. Но все ведущие ученые, работающие в этой сфере, не перестают повторять, что ИИ - не более чем имитация интеллекта человека для решения узких профессиональных задач. Это не замена человеку, а помощник, избавляющий от рутины.
В нашем случае речь идет о создании инструмента, который поможет учителям проверять сочинения быстрее. Это своего рода «подсказчик», специализированный поисковик для обнаружения смысловых ошибок в тексте. Не секрет, что учителя не любят проверять ЕГЭ. Мы хотим помочь им избавиться от этой рутинной работы или хотя бы сократить её объём. Чтобы в итоге они могли больше времени уделять ученикам. Система единого госэкзамена – это средство измерения результатов обучения, но само обучение, несомненно, должно происходить в формате живого общения.
Когда мы с учителями обсуждали методологию разметки сочинений, я был приятно удивлен их позитивными откликами. Строгая формализация, когда нужно точно указать фрагмент с ошибкой, тип ошибки и её объяснение, здорово дисциплинирует мышление. Настолько, что даже уменьшается число разногласий между проверяющими экспертами. Таким образом, с учителями мы сходимся во мнении, что конкурс поможет выполнить важную и очень востребованную социальную функцию, выходящую за рамки только лишь технологического вызова.
- А как эта технология поможет школьникам, для которых ЕГЭ, как правило, довольно сложное испытание?
- Они получат возможность тренироваться писать сочинения без ошибок. Отличникам, быть может, это не так нужно, но многим школьникам необходимо написать побольше пробных сочинений, чтобы хорошо подготовиться к ЕГЭ. И они это смогут сделать, не обращаясь к учителям или репетиторам. Система автоматически проверит ошибки, и этот процесс будет намного быстрее и дешевле, чем репетитор. Система будет доступна в режиме 24/7, во всех регионах, включая самые удаленные, где зачастую не хватает квалифицированных специалистов. Но это будущее, к которому придётся идти, возможно, не один год.
Что касается апелляции и возможных конфликтных ситуаций по результатам ЕГЭ, то здесь ничего не поменяется. Последнее слово всегда будет за профессиональными преподавателями, и на этом этапе не важно, как была выявлена ошибка – самим экспертом или ему ИИ подсказал.
- Где, на ваш взгляд, помимо образовательной отрасли, может быть использована такая технология?
- Применение может быть очень широким. На первом этапе мы выбрали именно школьные сочинения и ЕГЭ, так как в этой сфере есть возможность четко формализовать критерии. Применительно к творческому процессу создания текстового произведения можно говорить об автоматизации рутинной вычитки. Если система поможет находить речевые, логические, фактические и другие смысловые ошибки, это станет огромным подспорьем, например, для начинающих журналистов или писателей. А редакторам будут приходить более чистые тексты. В результате у них останется больше времени на работу с материалом с содержательной точки зрения.
Обнаружение противоречий и логических ошибок в текстах может стать важным технологическим элементом для автоматического выявления фейков, лженаучных текстов, недостоверной информации. Обнаружив противоречия с другими материалами на ту же тему, ИИ сможет сразу же дать ссылки на более надежные источники информации. Подобных приложений может появиться довольно много, в самых разных сферах.
- А как алгоритм будет работать со сложными языками, например, Юго-Восточной Азии, есть ли специфика?
- В каждом языке имеются свои семантические, синтаксические, лексические языковые конструкции. Для сотен наиболее распространённых языков необходимые технологии автоматической обработки текстов уже разработаны и постоянно совершенствуются. Для редких языков такие исследования активно ведутся во всём мире. Фундаментальная общность всех человеческих языков связана с устройством нашего мозга, с тем, как все мы воспитываемся, учимся, развиваемся в социуме. Поэтому, на мой взгляд, наши технологии будут применимы для любых языков. Конечно, лингвисты, разбирающиеся в каждом конкретном языке, будут непременно нужны в процессе разработки системы и её дальнейшего совершенствования.
- Расскажите, чем в целом занимается ваша лаборатория в МФТИ.
- Мы занимаемся разными задачами машинного интеллекта, в том числе анализом текстов и информационным поиском. Разработали свою библиотеку с открытым кодом для тематического моделирования больших текстовых коллекций. Тематические модели способны автоматически определять тематику документов и искать тексты по смыслу, а не по ключевым словам. По скорости вычислений и гибкости наша разработка не имеет себе равных, то есть в этой довольно узкой области мы находимся на мировом уровне. На её основе мы создали сервис, который помогает исследователям оперативно, в течение буквально нескольких минут, собрать подборку из десятков научных статей по любой интересующей теме. Сейчас создаём следующий сервис, который помогает за пару часов написать вполне качественный обзор по собранной подборке. Те же технологии могут применяться для дистанционного образования, для поиска информации об успешных проектах и позитивных инициативах, для восстановления объективной картины событий по новостям. Миссия всех этих исследований – приблизить знания к людям, сделать знания ещё более доступными и понятными.