Байесовские методы машинного обучения (Спецсеминар)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 21: Строка 21:
=== Непрерывное обобщение информационного критерия Акаике в задачах регрессии и классификации ===
=== Непрерывное обобщение информационного критерия Акаике в задачах регрессии и классификации ===
=== Недиагональная регуляризация обобщенных линейных моделей ===
=== Недиагональная регуляризация обобщенных линейных моделей ===
-
=== Автоматическое определение числа кластеров в алгоритме разделения гауссовской смеси ===
+
=== Автоматическое определение количества компонент в EM-алгоритме восстановления смеси нормальных распределений ===
 +
Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации обоснованности. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов, основанных на скользящем контроле и принципе минимальной длины описания.
 +
[[Media:Vetrov-ArdEm-JVMMF-2009.pdf | Статья , PDF [670Кб]]].
[[Категория:Научные школы]]
[[Категория:Научные школы]]

Версия 12:37, 16 сентября 2009

Содержание

Основные направления работы семинара

Семинар (рук. н.с. каф. ММП ф-та ВМК МГУ, к.ф.-м.н. Д.П. Ветров, м.н.с. ВЦ РАН Д.А. Кропотов) проводится для студентов каф. ММП, ф-та ВМК МГУ, но открыт для всех желающих. Основным направлением работы семинара является исследование и применение т.н. байесовского подхода к теории вероятностей в решении задач машинного обучения и компьютерного зрения. Байесовские методы получили большое распространение в мире в течение последних 15 лет. Их основными достоинствами является

  • возможность автоматической настройки структурных параметров алгоритмов машинного обучения (выбор количества кластеров, определение коэффициента регуляризации, отбор релевантных признаков и объектов, определение топологии нейросети и пр.);
  • корректная работа с фактами, достоверность которых точно неизвестна, позволяющая обобщить методы классической булевой логики на ситуации, содержащие значительный элемент неопределенности, которая позволяет успешно применить байесовские методы в экспертных системах;
  • возможность учета структурных и вероятностных взаимосвязей в массивах данных, опирающаяся на активно развиваемый в настоящее время аппарат графических моделей;
  • представление данных и настраиваемых параметров, позволяющее объединять результаты наблюдений косвенных показателей неизвестной величины с априорными представлениями о ее характерных значениях.

Участники спецсеминара активно участвуют в теоретической работе по разработке новых методов настройки структурных параметров и алгоритмов машинного обучения для нестандартных задач, а также занимаются прикладными исследованиями в области когнитивных технологий.

Методическая поддержка спецсеминара осуществляется спецкурсами «Байесовские методы машинного обучения» и «Структурные методы анализа изображений и сигналов», читаемых на факультете ВМК.

Прикладные проекты

Построение трехмерной модели мозга мыши и статистический анализ экспрессии генов в мозге

Множественный трекинг лабораторных животных

Видео

Определение поведенческих актов животного по данным видеонаблюдения

Нахождение скрытых закономерностей в поведении

Анализ изображений клеточных структур

Теоретическая работа

Непрерывное обобщение информационного критерия Акаике в задачах регрессии и классификации

Недиагональная регуляризация обобщенных линейных моделей

Автоматическое определение количества компонент в EM-алгоритме восстановления смеси нормальных распределений

Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации обоснованности. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов, основанных на скользящем контроле и принципе минимальной длины описания.

Статья , PDF [670Кб].

Личные инструменты