Прикладные системы распознавания и прогнозирования (курс лекций)
Материал из MachineLearning.
- Обязательный курс для студентов 5 курса каф. ММП, читается в 9 семестре
- Лекции — 36 часов
- Форма контроля — экзамен
- Автор программы: член-корр. РАН Рудаков К.В.
- Лекторы: член-корр. РАН Рудаков К.В., Рязанов В.В., Пшеничников С.Б., Рейер И.А., Гуревич И.Б., Вальков А.С., Чехович Ю.В.
Аннотация
Курс посвящен проблемам, возникающим при использовании теоретических знаний в области распознавания в процессе решения реальных прикладных задач. В его чтении принимают участие сотрудники кафедры ММП, обладающие опытом создания и внедрения конкретных практических систем распознавания и прогнозирования. В рамках курса, в частности, рассматриваются в общем и на конкретных примерах вопросы проведения предпроектного обследования объекта информатизации, стадии эскизного проектирования и техно-рабочего проектирования прикладных систем. Особое внимание уделяется рассмотрению проблем, возникающих в связи с часто встречающимися на практике ситуациями, когда потенциальные заказчики не имеют четкого представления о необходимой функциональности разрабатываемых систем, и когда в прикладной области имеются неполные и/или недостоверные начальные данные.
Содержание курса
Этап предпроектного обследования объекта информатизации
Постановки реальных прикладных задач распознавания: необходимость ознакомления с предметной областью и выяснения потребностей Заказчика. Цели и способы проведения предпроектного обследования объекта информатизации. Содержание предпроектного обследования. Форма представления результатов предпроектного обследования. Первичный анализ состава данных. Разработка технического задания на эскизный проект.
Эскизное и техно-рабочее проектирование
Основное содержание эскизного проекта. Роль вычислительных экспериментов. Проблемы конфиденциальности реальных данных и способы их решения. Основное содержание техно-рабочего проекта. Форма представления результатов проектирования. Вопросы согласования и утверждения результатов проектирования Заказчиком. Роль проектирования в процессе сдачи Системы.
Примеры: история начала создания системы мониторинга торгов на ММВБ и системы прогнозирования конъюнктуры для Правительства Москвы
Проблема биржевого мониторинга: неформализованные понятия манипулирования ценами и инсайдерской торговли. Структура данных: протоколы заявок и сделок. Эмуляция работы торговой машины, сделки начала дня. Признаки деятельности участников торгов, функционалы оценки влияния на цену. Примеры использования системы в работе аналитиков. Постановка «Московской задачи» - структура данных. Эндогенные и экзогенные факторы. Основная проблема - отсутствие цепных индексов цен. Эвристическое решение этой проблемы. Некоторые результаты прогнозирования.
Примеры построения бизнес-ориентированных систем анализа данных
Принципы построения прикладных систем анализа данных
Предпосылки разработки систем анализа данных. Бизнес-задача, на решение которой направлена система. Исходные данные для системы: доступность, стоимость, чистота, процессы сбора. Принципы выбора методы анализа данных.
Примеры прикладных систем
Примеры прикладных систем анализа данных в биржевой торговле (мониторинг), банковской деятельности (анкетный и поведенческий скоринг), интернет-порталах (поведенческая и контекстная классификация ресурсов и пользователей).
Постановки задач анализа данных в различных отраслях
Деловая игра. На основе материалов деловой прессы необходимо в течение занятия подготовить и представить бизнес-идею по созданию системы анализа данных. Идеи оцениваются преподавателем и другими учащимися. Критерии оценки: новизна и оригинальность, наличие потребностей заказчика, доступность исходных данных, обоснованность методов решения, реализуемость.
Выполняется в группах по 2-3 человека.
Постановка задачи прогнозирования цен на бирже электроэнергии
Формулирование задачи прогнозирования цен в терминах участника оптового рынка электроэнергии. Возможные постановки задачи прогнозирования. Поиск и выбор исходных данных и различных факторов, влияющих на цены. Возможные математические методы прогнозирования цен. Выбор (построение) оптимального метода прогнозирования цен. Исследование устойчивости, переобученности. Различные критерии измерения точности прогноза цен, выбор критерия точности.
PR-аналитика и конструирование эталонных компаний
Реальные эталонные компании и их PR-образы. Мультипликаторы и интегральные оценки как инструменты PR-аналитики. Расчет расстояния анализируемой компании до эталона и PR-образа. Оценка времени жизни PR-образа и стоимости PR по синтетическим мультипликаторам. PR-недооценка или переоценка компаний.
Отраслевая аналитика на примере электроэнергетики
Особенности интеллектуального анализа данных крупных реформируемых компаний. Многомерные мультипликаторы энергокомпаний. Анализ промышленных и финансовых рисков в электроэнергетике.
Универсальная программная система интеллектуального анализа данных, распознавания и прогноза
Назначение, возможности и функциональные особенности Системы. Структура Системы, графическая оболочка, окна проектов распознавания и кластеризации. Ввод и предобработка данных. Обработка количественных, номинальных признаков и прочерков, формирование классообразующих признаков. Примеры практических применений в медицине, бизнесе, экономике.
Практические методы распознавания, общие и специализированные параметры настройки и управления методами
Библиотека методов распознавания по прецедентам: алгоритмы вычисления оценок, тестовый алгоритм, алгоритмы голосования по системам логических закономерностей, статистическое взвешенное голосование, бинарные решающие деревья, линейный дискриминант Фишера, линейная машина, к-ближайших соседей, многослойный перцептрон, метод опорных векторов. Методы построения коллективных решений в задачах распознавания: байесовская коррекция, шаблоны принятия решений, области компетенции, выпуклый стабилизатор, комитетные методы, логическая и алгебраическая коррекция.
Практические методы кластеризации, параметры настройки и управления методами
Библиотека методов кластерного анализа: методы иерархической группировки, метод минимизации дисперсионного критерия, метод к-внутригрупповых средних, кластеризация на базе восстановления плотностей компонент смеси по обучающей выборке. Построение коллективных решений в задаче кластерного анализа: комитетный синтез и коллективные к-средних. Кластеризация при неизвестном числе кластеров. Визуализация многомерных данных и знаний на плоскости.
Прикладные задачи анализа изображений
Представление и передача информации в виде и с помощью изображений. Разделы обработки и анализа изображений. Постановки и классы задач анализа и оценивания информации, представленной в виде изображений. Основные классы прикладных задач и примеров систем анализа и распознавания изображений.
Системы автоматизированной обработки и анализа изображений рукописных документов
Задачи анализа изображений рукописных документов: получение текста документа по изображению; поиск ключевых слов в документе; идентификация и верификация пишущего. Базовые этапы обработки изображения рукописного документа: бинаризация изображения; удаление шумов и артефактов; выделение строк; выделение слов в строке; распознавание слов. Области применения систем автоматизированной обработки и анализа изображений рукописных документов: идентификация почтовых адресов; обработка банковских чеков; поиск в оцифрованных архивах; криминалистическая экспертиза.
Литература
Основная литература
- Бонгард М.М. Проблема узнавания. М.: Наука. 1967.
- Верхаген К., Дейн Р., Грун Ф., Йостен Й., Вербек П. Распознавание образов. Состояние и перспективы. М: Радио и связь. 1985.
- Горелик А.Л., Гуревич И.Б., Скрипкин В.А. Современное состояние проблемы распознавания. Некоторые аспекты. М: Радио и связь. 1985.
- Гренандер У. Лекции по теории образов. В 3-х томах. М.: Мир. т.1. 1979; т.2. 1981; т. 3. 1983.
- Гуревич И.Б. Проблема распознавания изображений // Распознавание, классификация, прогноз. Математические методы и их применение. М.: Наука. 1989. Вып. 1. С. 280 - 329.
- Журавлев Ю.И., Гуревич И.Б. Распознавание образов и распознавание изображений // Распознавание, классификация, прогноз. Математические методы и их применение. М.: Наука. 1989. Вып. 2. С. 5 - 72.
- Марр Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов. М.: Радио и связь. 1987.
- Павлидис Т. Алгоритмы машинной графики и обработки изображений. М.: Радио и связь. 1986.
- Ballard D.H., Brown C.H. Computer Vision. Prentice-Hall, Inc.. Englewood Cliffs. 1982.
- Duda R.O., Hart P.E., Stork D.G. Pattern Classification, A Wiley-Interscience Publication. John Wiley&Sons Inc. 2001.
- Gonzalez R.C., Woods R.E. Digital Image Processing. Prentice-Hall Inc. 2002.
- Jahne B. Digital Image Processing. 6th revised and extended edition. Springer. 2005.
- Klette R., Zamperoni P. Handbook of Image Processing Operators / Jonh Wiley and Sons Ltd., Chichester, West Sussex. England. 1996.
- Petrou Maria, Bosdogianni Panagiota. Image processing. The Fundamentals. John Wiley & Sons Limited. 1999.
- Pratt K. Digital Image Processing. John Wiley & Sons, Inc. 2001.
- Rosenfeld A., Kak A.C. Digital Picture Processing. V.1, 2. Academic Press, Inc. New York. 1982.
- Russ J.C. (Ed.)The Image Processing Handbook. (Fourth Edition). CRC Press LLC. 2002.
- Sonka M., Hlavac V. Boyle. Image Processing, Analysis and Machine Vision. Brooks / Cole Publishing Company. 1999.
Дополнительная литература
- Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир. 1976.
- Прэтт У. Цифровая обработка изображений. В 2-х кн. М.: Мир. 1982.
- Фишер Р. От поверхностей к объектам. Машинное зрение и анализ трехмерных сцен. М.: Радио и связь. 1993.
- Хорн Б.К.П. Зрение роботов. М: Мир. 1989.
- Davis L.S. (Ed.). Foundations of Image Understanding. Kluwer Academic Publishers. 2001.
- Faugeras О. Three-Dimensional Computer Vision. A Geometric Viewpoint. MIT Press, Cambridge. Massachusetts. 1993.
- Granlund G.H., Knutson Н. Signal Processing for Computer Vision. Kluwer Academic Publishers. Dordrecht. 1995.
- Grimson W.E.L. Object Recognition by Computer: The Role of Geometric Constraints. The MIT Press. Cambridge, Massachusetts; London. England. 1990.
- Seul M., O'Gorman L., Sammon M.J. Practical Algorithms for Image Analysis: Description, Examples and Code. Cambridge University Press. 2000.
- Shirai Y. Three-Dimensional Computer Vision. Springer-Verlag. Berlin-Heidelberg. 1987.
- Subramanian V.S. Principles of Multimedia Database Systems. Morgan Kauffman Publishers Inc. 1998.
- F. van der Heijden. Image Based Measurement Systems. Object Recognition and Parameter Estimation. John Wiley and Sons Ltd.. Chichester, West Sussex. England. 1994.
- Wechsler H. Computational Vision. Academic Press Inc., San Diego. CA. 1990.