Байесовские методы машинного обучения (Спецсеминар)
Материал из MachineLearning.
Основные направления работы семинара
Семинар (рук. н.с. каф. ММП ф-та ВМК МГУ, к.ф.-м.н. Д.П. Ветров, м.н.с. ВЦ РАН Д.А. Кропотов) проводится для студентов каф. ММП, ф-та ВМК МГУ, но открыт для всех желающих. Основным направлением работы семинара является исследование и применение т.н. байесовского подхода к теории вероятностей в решении задач машинного обучения и компьютерного зрения. Байесовские методы получили большое распространение в мире в течение последних 15 лет. Их основными достоинствами являются
- возможность автоматической настройки структурных параметров алгоритмов машинного обучения (выбор количества кластеров, определение коэффициента регуляризации, отбор релевантных признаков и объектов, определение топологии нейросети и пр.);
- корректная работа с фактами, достоверность которых точно неизвестна, позволяющая обобщить методы классической булевой логики на ситуации, содержащие значительный элемент неопределенности, которая позволяет успешно применить байесовские методы в экспертных системах;
- возможность учета структурных и вероятностных взаимосвязей в массивах данных, опирающаяся на активно развиваемый в настоящее время аппарат графических моделей;
- представление данных и настраиваемых параметров, позволяющее объединять результаты наблюдений косвенных показателей неизвестной величины с априорными представлениями о ее характерных значениях.
Участники спецсеминара активно участвуют в теоретической работе по разработке новых методов настройки структурных параметров и алгоритмов машинного обучения для нестандартных задач, а также занимаются прикладными исследованиями в области когнитивных технологий.
Методическая поддержка спецсеминара осуществляется спецкурсами «Байесовские методы машинного обучения» и «Структурные методы анализа изображений и сигналов», читаемых на факультете ВМК.
Прикладные проекты
Построение трехмерной модели мозга мыши и статистический анализ экспрессии генов в мозге
Согласно современным представлениям когнитивные процессы определяются экспрессией генов в определенных областях головного мозга. В настоящее время биологи могут
- наблюдать в каких клетках происходит экспрессия того или иного гена
- определять за синтез какого белка отвечает тот или иной ген
- блокировать синтез соответствующего белка при помощи специальных препаратов
Уровень экспрессии генов можно определять только на препарированных срезах, поэтому эксперименты проводятся только на лабораторных животных, в частности на мышах.
Для получения биологических результатов требуется проводить статистический анализ экспрессии генов с учетом знаний о принадлежности клеток к различным анатомическим структурам головного мозга. Разработку соответсвующего метода мы разбили на несколько этапов:
- Построение трехмерной модель эталонного мозга. По результатам этого этапа были сделаны доклады на ММРО-14, PDF [793Кб] и на GraphiCon 2009, PDF [500Кб].
- Вписывание экспериментального среза в построенную трехмерную модель. Работа ведется в настоящий момент.
- Определение уровня экспрессии генов на экспериментальных срезах и построение трехмерной карты экспрессии. Работа ведется в настоящий момент.
- Статистический анализ экспрессии генов с учетом информации об принадлежности определенным анатомическим стуктурам.
Морфинг трехмерной модели мозга:
Множественный трекинг лабораторных животных
Одним из основных инструментов в современных когнитивных исследованиях являются методы анализа поведения человека или животного. Построение описания поведения вручную является очень трудоемким процессом, поэтому все большую популярность получают системы автоматического анализа поведения. Такие системы, как правило, включают в себя модуль видеонаблюдения, модуль сегментации видеосигнала (выделения в нем элементарных структурных единиц поведения — поведенческих актов) и модуль поиска закономерностей в поведении. Первичным элементом любой системы автоматического анализа поведения является модуль видеонаблюдения, позволяющий осуществлять сопровождение наблюдаемого объекта (трекинг) и, возможно, оценивать ряд его характеристик, например, геометрическую форму, скорость и т. п. Наибольшее распространение такие системы получили для наблюдения за лабораторными мышами. Серьезным ограничением современных систем видеонаблюдения за животными является их неспособность осуществлять наблюдение и идентификацию одновременно для нескольких животных, находящихся в клетке. Это сильно ограничивает область их применения, т.к. не позволяет анализировать социальное поведение. Кроме того, большую часть времени вне экспериментов животное проводит в т.н. домашней клетке, содержащей обычно 3–5 мышей. Для изучения изменений поведения животного в течение долгих интервалов времени (недели, месяцы) желательно осуществлять видеонаблюдение за ним и в домашней клетке. Современные технологии позволяют это сделать аппаратно, но надежных методов для множественного трекинга и идентификации мышей в клетке до сих пор не создано. Это связано в первую очередь со сложностями при разделении мышей, которые любят сбиваться в кучку и находиться в тесном телесном контакте, а также с персонификацией найденных особей.
Пример работы алгоритма множественного трекинга:
Определение поведенческих актов животного по данным видеонаблюдения
Необходимость создания высокопроизводительных и экономически эффективных методов поведенческого фенотипирования (скрининга) лабораторных мышей привела к появлению автоматических домашних клеток, предоставляющих исследователям возможность оказывать на мышей различные стимулирующие воздействия, и оборудованные системами видеонаблюдения. Современные же методы анализа поведения, например, выделение поведенческих шаблонов и стереотипии требуют разделения траекторий движения на отдельные поведенческие акты. Эта задача в настоящее время может быть выполнена только с привлечением опытного специалиста в области поведения животных. Существующие системы видеонаблюдения за поведением животных позволяют определять некоторые акты с помощью простейших эвристических метрик, например, сравнивая длину мыши с порогом, что обеспечивает крайне низкую точность распознавания. Автоматические методы сегментации траекторий на данный момент позволяют выделять только периоды двигательной активности и неподвижности, требуют тщательной настройки параметров, что существенно ограничивает их применимость на практике.
Пример сегментации поведения животного:
Нахождение скрытых закономерностей в поведении
Задача поиска поведенческих закономерностей пришла из биологии. Исходными данными для исследования является временной ряд, в каждый момент времени которого может наблюдаться некоторое действие. Задачей является поиск характерных, повторяющихся цепочек действий во времени. Простейшим примером паттерна может служить процесс приема пищи: человек моет руки, после чего, идет на кухню, потом отодвигает стул, садится, берет в руки вилку. Однако исследователей интересуют паттерны, которые человеку сложно, или невозможно выделить с помощью визуального анализа. Такие закономерности принято называть скрытыми(Hidden Time Patterns).
В данной работе, PDF [343Кб] был реализован и модифицирован алгоритм, предложенный М.С.Магнусоном («Discovering hidden time patterns in behavior» M.S.Magnusson 2000, PDF [1MB]). Предложенный метод основывается на опеределении взаимосвязи между парами событий, названной критическим отношением. Поиск производится снизу вверх: алгоритм сначала находит простые закономерности, потом, путем соединения простых, образуются более сложные паттерны. На каждом шаге проводится отбор самых существенных и полных паттернов. Алгоритм был реализован на языке Си в виде консольного приложения и модуля Matlab.
На данный момент разрабатывается графическое приложение, позволяющее анализировать результаты поиска и распределения паттернов.
Анализ изображений клеточных структур
Проблема выделения клеток на изображении не является новой. Все эти задачи успешно решаются с использованием методов свертки, бинаризации и геометрических преобразований. Задача, которая рассматривалась в данной работе, отличается от них тем, что необходимо учитывать и корректно распознавать очень маленькие объекты – почки.
Задача решена с помощью последовательного применения методов, каждый из которых был модифицирован с учетом ее специфики: алгоритм свертки, бинаризация с учетом цветовой компоненты, выделение связных областей, фильтрация и отсеивание шума. Для анализа наличия почек проведены проверки на симметричность и отклонения от выпуклой оболочки. Кроме того, рассмотрены пути обработки сгустков клеток, отнесенных в одну связную область. Итоговый алгоритм допускает на изображениях с общим числом клеток около ста примерно одну-две ошибки первого и второго рода – точность, сравнимая с ручным подсчетом.
Статья с конференции Graphicon 2009, PDF [432Кб]
Теоретическая работа
Непрерывное обобщение информационного критерия Акаике в задачах регрессии и классификации
Предлагается метод отбора признаков для линейной регрессии с помощью обобщения информационного критерия Акаике. Использование классического информационного критерия Акаике (AIC, Akaike Information Criterion) для отбора признаков связано с полным перебором по всем подмножествам признаков, что приводит к неоправданно большим вычислительным и временным затратам. Предлагается новый информационный критерий CAIC (Continuous Akaike Information Criterion), который является непрерывным обобщением AIC. В результате задача отбора признаков сводится к задаче гладкой оптимизации. Выводится эффективная процедура решения полученной задачи оптимизации. Экспериментальные исследования показывают, что разработанный метод действительно позволяет быстро и эффективно отбирать признаки в линейной регрессии. В экспериментах новая процедура также сравнивается с методом релевантных векторов, который является методом отбора признаков на основе байесовского подхода. Показано, что обе процедуры близки по результатам. Основное отличие нового метода состоит в том, что некоторые коэффициенты регуляризации становятся тождественно равными нулю. Это позволяет избежать эффекта переупрощения модели, который характерен для метода релевантных векторов. Также рассматривается специальный случай (так называемая недиагональная регуляризация), в котором оба метода оказываются идентичными.
Рассмотрено расширение критерия CAIC на случай представления параметра регуляризации в виде симметрической неотрицательно определенной матрицы. Выведено явное условие вырожденности решающего правила (нулевого решения). Доказана справедливость данного условия для семейства диагональных неотрицательно определенных матриц, а также для семейства матриц, пропорциональных единичной.
Исследована унимодальность критерия для 4-х типов матриц регуляризации:
- Матрица регуляризации – любая симметрическая неотрицательно определенная матрица;
- Матрица регуляризации - симметрическая неотрицательно определенная матрица, являющаяся диагональной в базисе из собственных векторов гессиана логарифма правдоподобия;
- Диагональная матрица регуляризации;
- Матрица регуляризации пропорциональна единичной.
Недиагональная регуляризация обобщенных линейных моделей
Рассмотрен новый тип процедуры регуляризации в Байесовских методах классификации. В основе предлагаемого подхода лежит приведение матрицы гессиана логарифма функции правдоподобия к диагональному виду с последующей независимой регуляризацией вдоль собственных векторов. Это позволяет представить обоснованность (evidence) в виде произведения одномерных интегралов, из-за чего процесс автоматического определения коэффициентов регуляризации сходится за одну итерацию. В качестве примеров показано использование данного подхода для Гауссовского и Лапласовского априорных распределений. В обоих случаях качество полученного решения сравнимо с тем, которое дает метод релевантных векторов RVM (Relevance Vector Machine), при этом время обучения метода меньше, а разреженность решающего правила выше.
Автоматическое определение количества компонент в EM-алгоритме восстановления смеси нормальных распределений
Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации обоснованности. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов, основанных на скользящем контроле и принципе минимальной длины описания.
См. также
EM-алгоритм с последовательным добавлением компонент