Анализ графов, сетей, функций сходства (курс лекций, А.И. Майсурадзе)

Материал из MachineLearning.

Перейти к: навигация, поиск

Аннотация

Рассматриваются модели, задачи и методы анализа систем, описание которых базируется на попарном или множественном взаимодействии объектов. Эти объекты могут быть однотипными (гомогенные системы) или разнотипными (гетерогенные системы). В математике приняты 3 основные способа формализации упомянутого взаимодействия.

  1. Когда важно само наличие или отсутствие взаимодействия, формализация проводится на языке теории графов. Расширении графового описания различными характеристиками вершин и рёбер приводит к сетям.
  2. Если считается, что каждый набор объектов может быть охарактеризован численно, говорят о расстояниях или сходствах.
  3. Также описанием взаимодействия объектов может быть порядок на них.

Представлена теоретическая основа для формализации задач и построения, реализации и анализа широкого спектра моделей и методов ИАД. Исследуются эвристические модели данных, описывающие исходную информацию об объектах распознавания на основе различных реализаций понятия сходства. Рассматриваются задачи, требующие решения при реализации указанных моделей. Изучаются специальные структуры данных и алгоритмы, позволяющие эффективно настраивать и использовать изучаемые модели. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД — так называемые метрические методы. Рассмотрены методы построения и вычисления функций сходства, согласование сходства на различных множествах объектов, синтез новых способов сравнения объектов на базе уже имеющихся. Рассмотрен комплекс приёмов, предназначенный для эффективного представления и обработки метрической информации вычислительными системами. Рассматриваются характеристики графов, активно используемые при их анализе. Изучаются алгоритмы на графах — как теоретически, так и с точки зрения эффективной реализации. Различные модели роста графов. Построение репрезентативных выборок на графах. Генерация графов с заданными характеристиками. Существенное внимание в курсе уделено многочисленным формализациям кластерного анализа. Показано, какие задачи решают распространённые методы. Проведена типологизация широкого спектра задач кластеризации для гомогенных и гетерогенных систем (бикластеризация, кокластеризация).

Зачёт

Для получения зачёта учащийся должен защитить работу по одной из предложенных в ходе учебного курса тем. Работа может быть представлена как реферат (в жанре lecture notes).

Примеры тем работ:

  1. Алгоритмы сгущения графа
  2. Проверка согласия со степенным распределением
  3. Сложность алгоритма Дейкстры
  4. Описание и теоретические свойства алгоритма А*
  5. Двунаправленные алгоритмы поиска кратчайшего пути
  6. Последовательное и параллельное вычисление остовного дерева
  7. Поиск сообществ (community detection)
  8. Методы выборки репрезентативного подграфа
  9. Наделение метрического пространства свойствами ЛВП
  10. Нормализация метрик
  11. Нормировка метрик
  12. Способы оценки по выборке различных инвариантов метрических пространств
  13. Связь между теорией метрик и теорией потоков, использование алгоритмов из теории потоков для метрик
  14. Обучение метрик с учетом цели
  15. Обучение метрик для реконструкции исходных описаний
  16. Точный поиск ближайших соседей (NNS)
  17. Приближенный поиск ближайших соседей (ANNS)
  18. Алгоритмы реализации метрик
  19. Коррекция локальных возмущений в конечных метриках
  20. Обоснование и оценка качества метрических алгоритмов


Материалы

Программа курса

Ускорение поиска кратчайшего пути

Efficient point-to-point shortest path algorithm

Graph-to-Graph Mapping Survey

Личные инструменты