Обработка изображений в системах искусственного интеллекта (курс лекций, А.Н.Гнеушев)
Материал из MachineLearning.
В курсе рассматриваются основы обработки и анализа изображения, основные подходы и модели для решения задач при построении систем компьютерного зрения и искусственного интеллекта.
Компьютерное зрение относится к области создания интеллектуальных систем, которые получают информацию из изображений и на ее основе формируют знания и делают заключения. Автоматическая обработка, восстановление, улучшение, сверхразрешение, сегментация, распознавание, индексация, анализ и аннотация, редактирование и генерирование структур сцены на изображениях и видео являются основными задачами компьютерного зрения.
Интеллектуальная система рассматривается как математическая модель искусственного интеллекта для решения специализированных задач. При построении интеллектуальной системы рассматривают несколько подзадач: регистрация и кодирование видео изображения, предобработка, выделение характерных свойств изображения объектов, их анализ и преобразование, классификация и принятие решения, оценивание параметров сцены на изображении. Изображения регистрируются с помощью видео датчиков (сенсоров видеокамер) в различных частотных диапазонах, и могут быть представлены с помощью матриц яркости. Этап предобработки и выделение признаков обычно включает такие операции с изображением, как фильтрация, яркостные и геометрические корректирующие преобразования, нормализация для облегчения устойчивого выделения характерных свойств объектов, которые представляются как некоторое множество признаков, приближённо описывающее интересующий класс объектов, его поведение. Преобразование пространства признаков позволяет их сжимать, модифицировать, или обуславливать дополнительными ограничениями и моделями, например, для сверхразрешения и генеративных приложений. Классификация строится путем анализа полученного множества признаков, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Принадлежность к некоторому классу зарегистрированного объекта или структуры на изображении используется в последующих этапах принятия решения в интеллектуальной системе. Контекстно зависимые представления видеоизображений в пространстве признаков позволяет строить системы знаний, вопросно-ответные и генеративные системы в больших мультимодальных нейросетевых моделях.
Современные системы компьютерного зрения разнообразны: они реализованы как на основе классических подходов математического моделирования, так и с использованием нейросетевых моделей и машинного обучения в зависимости от требований целевой платформы, масштабируемости, ограничений вычислительных ресурсов, доступности обучающих данных, стоимости разработки и эксплуатации. Классические методы математического моделирования обладают объяснительными свойствами и востребованы в ответственных системах, где требуется достоверность и высокий уровень безопасности. Нейросетевые подходы обобщают классические решения путем обучения параметров моделей на подготовленной обучающей выборке примеров, специализации нейросетевых архитектур и типов слоев, использования регуляризации параметров и латентных моделей, учета свойств изображений и ограничений в условиях недостатка обучающих примеров.
В курсе упор делается на изложении основ и базовых алгоритмов обработки изображений. Рассматриваются модели регистрации и представления изображений, решаются модельные обратные задачи, такие как реконструкция изображения алгебраическими методами и на основе спектральной теории фильтрации, излагаются подходы выделения информативных признаков и сжатия изображений, основы вейвлет-теории и многомасштабного анализа для представления и выделения характерных свойств изображения объектов с целью дальнейшей обработки и анализа. При изложении классических моделей рассматриваются элементы нейросетевых подходов для решения тех или иных задач.
Цель курса – дать представление о предмете обработки и анализе изображений, познакомить с математическими моделями, использующимися в компьютерном зрении, выработать интуицию при решении задач и построении интеллектуальных систем.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей и случайных процессов. Необходимыми являются базовые представления о проведении вычислительного эксперимента и построении математических моделей в физике.
Курс читается студентам 3 и 4 курса кафедры «Интеллектуальные системы / проектирование и организация систем» ФУПМ МФТИ. Программа лекционного курса рассчитана на два семестра, предусмотрены практические (семинарские) занятия и домашняя работа (16 часов).

