Участник:Tolstikhin/Песочница
Материал из MachineLearning.
(→Эвристика) |
(→Сложность алгоритма) |
||
Строка 111: | Строка 111: | ||
Общее число операций приведённого алгоритма оценивается сверху выражением: | Общее число операций приведённого алгоритма оценивается сверху выражением: | ||
- | ::<tex>K_1mn^2+\left(^m_r\right)\left(K_2nr^2+K_3mn\right)</tex>, | + | ::<tex>K_1mn^2+C^r_m\left(^m_r\right)\left(K_2nr^2+K_3mn\right)</tex>, |
где <tex>K_1,K_2,K_3</tex> - некоторые действительные числа. | где <tex>K_1,K_2,K_3</tex> - некоторые действительные числа. |
Версия 14:01, 23 ноября 2008
Содержание |
Введение
В этой статье будeт рассматриваться задача поиска совместной подсистемы максимального веса для систем линейных уравнений и неравенств (MaxFS problem). Вначале будут введены общие определения и приведены некоторые результаты касательно сложности решения данной задачи. Дальше будут сформулированы вспомогательные утверждения, на основе которых мы сможем построить достаточно эффективный алгоритм, решающий задачу.
Изложение алгоритма будет сопровождаться численными примерами его работы.
Постановка задачи
Пусть дана произвольная несовместная система линейных неравенств
или равенств
где - конечные действительные числа, числа m и n фиксированы.
Задача MaxFs состоит в нахождении совместной подсистемы, имеющей максимальную мощность.
Данная задача часто возникает при решении различных математических задач - в том числе при решении
задач прогнозирования и распознавания.
Примером может служить разделение объектов 2х классов обучающей выборки
гиперплоскостью.
В случае, когда эту задачу не удаётся решить точно, мы хотим провести
гиперплоскость так, чтобы она допускала минимальное число ошибок.
Сложность задачи
Задача выделения максимальной совместной подсистемы является NP-сложной. ([2])
Посчитаем приблизительно сложность простого перебора.
Всего подсистем. Каждую подсистему надо проверить на совместность. Например, методы, упомянутые в [1], требуют для определения совместности подсистемы состоящей из неравенств и имеющей ранг , операций.
Понятно, что на практике данный метод не годится.
Существует другой подход к получению точного решения.
Произвольный булев вектор однозначно определяет подсистему системы 1. -е неравенство входит в подсистему тогда и только тогда, когда .
Введём булеву функцию на -мерном булевом кубе, принимающую единицу на тех и только тех наборах , которые соответствуют несовместным системам . Очевидно, что такая булева функция монотонна. Исходная задача сводится к поиску максимального верхнего нуля монотонной функции . В книге [3] приведён алгоритм, решающий эту задачу. В худшем случае он делает шагов, где шаг - вычисление одного значения функции g.
Этот подход немного ускоряет решение задачи, но по-прежнему работает слишком медленно.
В [1] предлагается более эффективный метод решения исходной задачи.
Вспомагательные определения и утверждения
По-прежнему будем рассматривать систему 1. Допустим, что она совместна и имеет ранг .
Определение 1. Решение системы 1 - узловое, если оно обращает в равенства какие-нибудь её неравенств с линейно независимыми левыми частями.
Определение 2. Подсистема системы 1 - крайняя, если, во-первых, её ранг больше нуля и равен числу неравенств в ней, во-вторых, хотя бы одно её узловое решение удовлетворяет системе 1.
Определение 3. Крайняя подсистема - узловая подсистема, если все её узловые решения удовлетворяют системе 1.
Свойство 1. Крайняя подсистема тогда и только тогда является узловой подсистемой системы 1, когда её ранг совпадает с рангом системы 1.
Теорема 1. Каждая совместная система линейных неравенств вида 1 отличного от нуля ранга имеет хотя бы одну узловую подсистему, а значит, хотя бы одно узловое решение.
С помощью этих утверждений в [1] доказывается основная лемма, на которой держится следующий алгоритм.
Лемма. Ранг максимальной совместной подсистемы (МСП) совпадает с рангом всей системы.
Точное решение задачи
Изложение алгоритма
Алгоритм будет выглядеть следующим образом. Будем перебирать одну за другой подсистемы мощности и ранга для данной несовместной системы 1 ранга . Среди них обязательно найдутся все узловые подсистемы для искомой МСП, так как по лемме ранг МСП равен . Из определения следует, что все узловые решения любой узловой подсистемы МСП удовлетворяют всей МСП. Это означает, что достаточно найти хотя бы одно узловое решение любой узловой подсистемы МСП и подставить его в систему 1, чтобы выделить саму МСП.
Таким образом мы заменяем все неравенства в найденной подсистеме на равенства и находим решение полученной системы уравнений (в случае бесконечного числа решений - достаточно найти одно). Затем мы подставляем полученное решение в исходную систему 1 и выделяем те неравенства, которым удовлетворяет полученное решение. Эти неравенства образуют некую совместную подсистему системы 1. В какой-то момент мы найдём одну из узловых подсистем МСП и выделим МСП.
Трудность заключается в том, что мы не знаем какая из подсистем является узловой для МСП. Поэтому приходится перебирать все подсистемы мощности и ранга и находить одно их узловое решение. Затем выделять по узловому решению подсистему, соответствующую ему. Сравнивая мощности всех систем, полученных таким путём, мы найдём МСП. Также мы найдём одно его решение.
Сложность алгоритма
Общее число операций приведённого алгоритма оценивается сверху выражением:
- ,
где - некоторые действительные числа.
Краткое обоснование полученной оценки. Предположим, что . Вычисление ранга матрицы исходной системы 1 требует операций (приведение к треугольному виду). Число подсистем мощности в системе 1 - . Для найденной подсистемы ранга нахождение одного узлового решения занимает операций. Подстановка найденного решения во все неравенства системы 1 - операций.
Эта оценка уже гораздо лучше оценки для полного перебора. К сожалению алгоритм всё ещё остаётся неподъёмным на практике при больших значениях и .
Приближённое решение задачи
Точное решение задачи выделения максимальной совместной подсистемы - NP-полная задача.
Однако, если отказаться от нахождения точной МСП и ограничиться нахождением приближённой МСП, задачу можно решить за полиномиальное время. Основная идея - перебирать не всевозможные подсистемы, а только часть из них, основываясь на те или иные эвристики.
Дело в том, что для нахождения точного решения нам достаточно наткнуться хотя бы на одну узловую подсистему МСП. При малом числе переменных и большом числе неравенств в системе 1 можно рассчитывать на то, что МСП имеет большое число узловых подсистем. А значит мы с большой вероятностью наткнёмся на одну из них. В противном случае нам не попадётся ни одна из узловых подсистем МСП и мы получим неточное решение.
В качестве простейшего примера предлагается совершать лексикографический обход всех подсистем мощностью и ранга с шагом , произвольным образом занумеровав неравенства, входящие в систему. Варьируя параметр мы можем для конкретной задачи подобрать устраивающую нас время. Для большей надёжности алгоритма параметр надо брать как можно меньшим.
Эвристика
Кратко опишем идею одной из возможных эвристик, позволяющих сильно сократить перебор подсистем [4].
Сделаем каждую из гиперплоскостей, описанных неравинствами, "подвижной", вводя неотрицательные эластичные переменные (elastix variables) в каждое из неравенств. Теперь будем "шевелить" каждую гиперплоскость, пока система не станет совместной. Сведём задачу к задаче линейного программирования, штрафуя сумму эластичных переменных. Такой подход также называется эластичным программирвоанием(elastic programming).
Предложенная процедура отчасти схожа с методом SVM в случае линейно неразделимой выборки.
Решив эту оптимизационную задачу, мы получим некие значения эластичных переменных. В случае совместности системы неравенств мы получим нулевое значение эластичных переменных. В противном случае большие значения переменных соответствют "худшим" неравенствам, в том смысле, что гиперплоскости, соответствующие этим неравенствам, пришлось больше всего "двигать" для достижения совместности системы. Логично предположить, что эти неравенства не будут входить в МСП.
Решив описанную задачу оптимизации, мы можем перебирать те подсистемы мощности и ранга , которым соответствуют минимальные суммы эластичных переменных.