Прикладные системы распознавания и прогнозирования (курс лекций)

Материал из MachineLearning.

Версия от 18:14, 5 сентября 2011; Kropotov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

  • Обязательный курс для студентов 5 курса каф. ММП, читается в 9 семестре
  • Лекции — 36 часов
  • Форма контроля — экзамен
  • Автор программы: член-корр. РАН Рудаков К.В.
  • Лекторы: член-корр. РАН Рудаков К.В., Рязанов В.В., Пшеничников С.Б., Рейер И.А., Гуревич И.Б., Вальков А.С., Чехович Ю.В.

Аннотация

Курс посвящен проблемам, возникающим при использовании теоретических знаний в области распознавания в процессе решения реальных прикладных задач. В его чтении принимают участие сотрудники кафедры ММП, обладающие опытом создания и внедрения конкретных практических систем распознавания и прогнозирования. В рамках курса, в частности, рассматриваются в общем и на конкретных примерах вопросы проведения предпроектного обследования объекта информатизации, стадии эскизного проектирования и техно-рабочего проектирования прикладных систем. Особое внимание уделяется рассмотрению проблем, возникающих в связи с часто встречающимися на практике ситуациями, когда потенциальные заказчики не имеют четкого представления о необходимой функциональности разрабатываемых систем, и когда в прикладной области имеются неполные и/или недостоверные начальные данные.

Содержание курса

Этап предпроектного обследования объекта информатизации

Постановки реальных прикладных задач распознавания: необходимость ознакомления с предметной областью и выяснения потребностей Заказчика. Цели и способы проведения предпроектного обследования объекта информатизации. Содержание предпроектного обследования. Форма представления результатов предпроектного обследования. Первичный анализ состава данных. Разработка технического задания на эскизный проект.

Эскизное и техно-рабочее проектирование

Основное содержание эскизного проекта. Роль вычислительных экспериментов. Проблемы конфиденциальности реальных данных и способы их решения. Основное содержание техно-рабочего проекта. Форма представления результатов проектирования. Вопросы согласования и утверждения результатов проектирования Заказчиком. Роль проектирования в процессе сдачи Системы.

Примеры: история начала создания системы мониторинга торгов на ММВБ и системы прогнозирования конъюнктуры для Правительства Москвы

Проблема биржевого мониторинга: неформализованные понятия манипулирования ценами и инсайдерской торговли. Структура данных: протоколы заявок и сделок. Эмуляция работы торговой машины, сделки начала дня. Признаки деятельности участников торгов, функционалы оценки влияния на цену. Примеры использования системы в работе аналитиков. Постановка «Московской задачи» - структура данных. Эндогенные и экзогенные факторы. Основная проблема - отсутствие цепных индексов цен. Эвристическое решение этой проблемы. Некоторые результаты прогнозирования.

Примеры построения бизнес-ориентированных систем анализа данных

Принципы построения прикладных систем анализа данных

Предпосылки разработки систем анализа данных. Бизнес-задача, на решение которой направлена система. Исходные данные для системы: доступность, стоимость, чистота, процессы сбора. Принципы выбора методы анализа данных.

Примеры прикладных систем

Примеры прикладных систем анализа данных в биржевой торговле (мониторинг), банковской деятельности (анкетный и поведенческий скоринг), интернет-порталах (поведенческая и контекстная классификация ресурсов и пользователей).

Постановки задач анализа данных в различных отраслях

Деловая игра. На основе материалов деловой прессы необходимо в течение занятия подготовить и представить бизнес-идею по созданию системы анализа данных. Идеи оцениваются преподавателем и другими учащимися. Критерии оценки: новизна и оригинальность, наличие потребностей заказчика, доступность исходных данных, обоснованность методов решения, реализуемость.

Выполняется в группах по 2-3 человека.

Постановка задачи прогнозирования цен на бирже электроэнергии

Формулирование задачи прогнозирования цен в терминах участника оптового рынка электроэнергии. Возможные постановки задачи прогнозирования. Поиск и выбор исходных данных и различных факторов, влияющих на цены. Возможные математические методы прогнозирования цен. Выбор (построение) оптимального метода прогнозирования цен. Исследование устойчивости, переобученности. Различные критерии измерения точности прогноза цен, выбор критерия точности.

PR-аналитика и конструирование эталонных компаний

Реальные эталонные компании и их PR-образы. Мультипликаторы и интегральные оценки как инструменты PR-аналитики. Расчет расстояния анализируемой компании до эталона и PR-образа. Оценка времени жизни PR-образа и стоимости PR по синтетическим мультипликаторам. PR-недооценка или переоценка компаний.

Отраслевая аналитика на примере электроэнергетики

Особенности интеллектуального анализа данных крупных реформируемых компаний. Многомерные мультипликаторы энергокомпаний. Анализ промышленных и финансовых рисков в электроэнергетике.

Универсальная программная система интеллектуального анализа данных, распознавания и прогноза

Назначение, возможности и функциональные особенности Системы. Структура Системы, графическая оболочка, окна проектов распознавания и кластеризации. Ввод и предобработка данных. Обработка количественных, номинальных признаков и прочерков, формирование классообразующих признаков. Примеры практических применений в медицине, бизнесе, экономике.

Практические методы распознавания, общие и специализированные параметры настройки и управления методами

Библиотека методов распознавания по прецедентам: алгоритмы вычисления оценок, тестовый алгоритм, алгоритмы голосования по системам логических закономерностей, статистическое взвешенное голосование, бинарные решающие деревья, линейный дискриминант Фишера, линейная машина, к-ближайших соседей, многослойный перцептрон, метод опорных векторов. Методы построения коллективных решений в задачах распознавания: байесовская коррекция, шаблоны принятия решений, области компетенции, выпуклый стабилизатор, комитетные методы, логическая и алгебраическая коррекция.

Практические методы кластеризации, параметры настройки и управления методами

Библиотека методов кластерного анализа: методы иерархической группировки, метод минимизации дисперсионного критерия, метод к-внутригрупповых средних, кластеризация на базе восстановления плотностей компонент смеси по обучающей выборке. Построение коллективных решений в задаче кластерного анализа: комитетный синтез и коллективные к-средних. Кластеризация при неизвестном числе кластеров. Визуализация многомерных данных и знаний на плоскости.

Прикладные задачи анализа изображений

Представление и передача информации в виде и с помощью изображений. Разделы обработки и анализа изображений. Постановки и классы задач анализа и оценивания информации, представленной в виде изображений. Основные классы прикладных задач и примеров систем анализа и распознавания изображений.

Системы автоматизированной обработки и анализа изображений рукописных документов

Задачи анализа изображений рукописных документов: получение текста документа по изображению; поиск ключевых слов в документе; идентификация и верификация пишущего. Базовые этапы обработки изображения рукописного документа: бинаризация изображения; удаление шумов и артефактов; выделение строк; выделение слов в строке; распознавание слов. Области применения систем автоматизированной обработки и анализа изображений рукописных документов: идентификация почтовых адресов; обработка банковских чеков; поиск в оцифрованных архивах; криминалистическая экспертиза.

Литература

Основная литература

  1. Бонгард М.М. Проблема узнавания. М.: Наука. 1967.
  2. Верхаген К., Дейн Р., Грун Ф., Йостен Й., Вербек П. Распознавание образов. Состояние и перспективы. М: Радио и связь. 1985.
  3. Горелик А.Л., Гуревич И.Б., Скрипкин В.А. Современное состояние проблемы распознавания. Некоторые аспекты. М: Радио и связь. 1985.
  4. Гренандер У. Лекции по теории образов. В 3-х томах. М.: Мир. т.1. 1979; т.2. 1981; т. 3. 1983.
  5. Гуревич И.Б. Проблема распознавания изображений // Распознавание, классификация, прогноз. Математические методы и их применение. М.: Наука. 1989. Вып. 1. С. 280 - 329.
  6. Журавлев Ю.И., Гуревич И.Б. Распознавание образов и распознавание изображений // Распознавание, классификация, прогноз. Математические методы и их применение. М.: Наука. 1989. Вып. 2. С. 5 - 72.
  7. Марр Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов. М.: Радио и связь. 1987.
  8. Павлидис Т. Алгоритмы машинной графики и обработки изображений. М.: Радио и связь. 1986.
  9. Ballard D.H., Brown C.H. Computer Vision. Prentice-Hall, Inc.. Englewood Cliffs. 1982.
  10. Duda R.O., Hart P.E., Stork D.G. Pattern Classification, A Wiley-Interscience Publication. John Wiley&Sons Inc. 2001.
  11. Gonzalez R.C., Woods R.E. Digital Image Processing. Prentice-Hall Inc. 2002.
  12. Jahne B. Digital Image Processing. 6th revised and extended edition. Springer. 2005.
  13. Klette R., Zamperoni P. Handbook of Image Processing Operators / Jonh Wiley and Sons Ltd., Chichester, West Sussex. England. 1996.
  14. Petrou Maria, Bosdogianni Panagiota. Image processing. The Fundamentals. John Wiley & Sons Limited. 1999.
  15. Pratt K. Digital Image Processing. John Wiley & Sons, Inc. 2001.
  16. Rosenfeld A., Kak A.C. Digital Picture Processing. V.1, 2. Academic Press, Inc. New York. 1982.
  17. Russ J.C. (Ed.)The Image Processing Handbook. (Fourth Edition). CRC Press LLC. 2002.
  18. Sonka M., Hlavac V. Boyle. Image Processing, Analysis and Machine Vision. Brooks / Cole Publishing Company. 1999.

Дополнительная литература

  1. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир. 1976.
  2. Прэтт У. Цифровая обработка изображений. В 2-х кн. М.: Мир. 1982.
  3. Фишер Р. От поверхностей к объектам. Машинное зрение и анализ трехмерных сцен. М.: Радио и связь. 1993.
  4. Хорн Б.К.П. Зрение роботов. М: Мир. 1989.
  5. Davis L.S. (Ed.). Foundations of Image Understanding. Kluwer Academic Publishers. 2001.
  6. Faugeras О. Three-Dimensional Computer Vision. A Geometric Viewpoint. MIT Press, Cambridge. Massachusetts. 1993.
  7. Granlund G.H., Knutson Н. Signal Processing for Computer Vision. Kluwer Academic Publishers. Dordrecht. 1995.
  8. Grimson W.E.L. Object Recognition by Computer: The Role of Geometric Constraints. The MIT Press. Cambridge, Massachusetts; London. England. 1990.
  9. Seul M., O'Gorman L., Sammon M.J. Practical Algorithms for Image Analysis: Description, Examples and Code. Cambridge University Press. 2000.
  10. Shirai Y. Three-Dimensional Computer Vision. Springer-Verlag. Berlin-Heidelberg. 1987.
  11. Subramanian V.S. Principles of Multimedia Database Systems. Morgan Kauffman Publishers Inc. 1998.
  12. F. van der Heijden. Image Based Measurement Systems. Object Recognition and Parameter Estimation. John Wiley and Sons Ltd.. Chichester, West Sussex. England. 1994.
  13. Wechsler H. Computational Vision. Academic Press Inc., San Diego. CA. 1990.
Личные инструменты