Обсуждение участника:Reshetov
Материал из MachineLearning.
Решетов Юрий Вячеславович
Содержание |
Проект RNN
Нейросеть RNN (Reshetov Neural Network), является тернарным классификатором и имеет три слоя:
1. Входной слой. Входные данные нормируются в диапазоне от 0 до 1 включительно.
2. Логический слой. Состоит из взаимоисключающих логических формул нечёткой логики. Количество взаимоисключающих формул для логического слоя равно 2n, где n – количество входов нейросети
3. Выходной слой. Один искусственный нейрон.
Логический слой
Закодируем входные значения в виде двоичных чисел. Например, у нас три входа, следовательно понадобится 23 = 8 логических состояний.
000
001
010
011
100
101
110
111
Заменим 0 на 1 – xi, а 1 на xi, где i – номер входа и перемножим арифметические выражения:
(1- x0) (1 – x1) (1 – x2)
(1- x0) (1 – x1) x2
(1- x0) x1 (1 – x2)
(1- x0) x1 x2
x0 (1 – x1) (1 – x2)
x0 (1 – x1) x2
x0 x1 (1 – x2)
x0 x1 x2
Присвоим каждое арифметическое выражение переменной:
Out0 = (1 - x0) (1 – x1) (1 – x2)
Out1 = (1 - x0) (1 – x1) x2
Out2 = (1 - x0) x1 (1 – x2)
Out3 = (1 - x0) x1 x2
Out4 = x0 (1 – x1) (1 – x2)
Out5 = x0 (1 – x1) x2
Out6 = x0 x1 (1 – x2)
Out7 = x0 x1 x2
Переменные Out0, Out1, …, Out7 – выходы логического слоя.
Подадим выходы логического слоя на искусственный нейрон с весовыми коэффициентами:
Probability = Out0 w0 + Out1 w1 + Out2 w2 + Out3 w3 + Out4 w4 + Out5 w5 + Out6 w6 + Out7 w7
Где:
w0, w1, …, w7 – весовые коэффициенты в диапазоне значений от 0 до 1 включительно.
Probability – значение на выходе RNN и одновременно вероятность принадлежности паттерна к одному из классов.
Обучение сети RNN
Обучение сети RNN сводится к обучению выходного слоя, т.е. подбору коэффициентов искусственного нейрона на выходе сети.
Обучение RNN тривиально, т.к. оно сводится к решению системы линейных неравенств.
Предположим, что у нас есть обучающая выборка:
x11, x12, …, x1n, y1
x21, x22, …, x2n, y2
…
xm1, xm2, …, xmn, ym
Где:
xij – j-е входное значение для i-го примера, нормированное к диапазону от 0 до 1 включительно
yi – выходное значение для для i-го в бинарном диапазоне 0 либо 1
В этом случае система линейных неравенств имеет вид:
Out11 * w1 + Out12 * w2 +…+ Out1n * wn Z1 0.5
Out21 * w1 + Out22 * w2 +…+ Out2n * wn Z2 0.5
…
Outm1 * w1 + Outm2 * w2 +…+ Outmn * wn Zm 0.5
Где:
Outij – j-е выходное значение логического слоя для i-го примера
wj – j-й весовой коэффициент выходного слоя
Zi – знак неравенства для i-го примера в виде ≥ если yi = 1 (принадлежит к первому классу объектов) и ≤ если yi = 0 (принадлежит ко второму классу объектов)
Несложно понять, что вышеуказанная система линейных неравенств всегда имеет тривиальное решение, значение всех весовых коэффициентов выходного искусственного нейрона равна 0.5, в силу того, что сумма всех значений на выходе логического слоя сети всегда равна 1.
Соответственно, если существует решение системы неравенств при котором значение хотя бы одного единственного весового коэффициента не равно 0.5, т.е. решение нетривиально, то RNN обучаема. Если такого решения не существует, то обучающая выборка нерепрезентативна.
Соответственно метод обучения сети RNN сводится к алгоритмам оптимизации линейных неравенств, т.е. линейному программированию с целевой функцией: MAX = f(w1) + f(w2) + … + f(wn), где: f(x) = abs((x * 2) - 1)
Свойства сети RNN
Сеть RNN, в отличие от других общеизвестных алгоритмов классификации, требовательна к полноте и непротиворечивости данных в обучающей выборке. Т.е. если обучающие примеры содержат паттерны, имеющие неоднозначности или содержат неполную информацию, то вычисленная вероятность таких паттернов на выходе сети будет равной 0.5.
Если другие алгоритмы классификации менее требовательны к обучающей выборке и могут обучиться или переобучиться практически на любых, в том числе и на случайных, противоречивых и(ли) не полных данных, то в RNN этот недостаток устранён.
Примеры
Предположим, что нам необходимо обучить сеть RNN данным моделирующим логическую функцию y = A ИЛИ B:
Значение на входе A | Значение на входе B | Значение на выходе |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 1 |
Если обучающие примеры представить в виде вышеприведенной таблицы, то результаты работы сети будут точно соответствовать табличным паттернам.
Предположим, что в обучающей выборке содержится неполная информация, т.е. исключим один из примеров:
Значение на входе A | Значение на входе B | Значение на выходе |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 1 | 1 |
В этом случае, для оставшихся в обучающей выборке примеров, обученная сеть RNN даст результат, точно соответствующий табличным данным, а для примера, отсутствующего в выборке вероятность будет равна 0.5:
Значение на входе A | Значение на входе B | Значение на выходе RNN |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 0.5 |
1 | 1 | 1 |
Т.е. RNN не измышляет гипотез и не интерпретирует информацию о которой ей ничего не было известно в процессе обучения, а помечает её, как неопределенность.
- Еще один пример, добавим противоречия в обучающую выборку:
Значение на входе A | Значение на входе B | Значение на выходе |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 0 |
1 | 0 | 1 |
1 | 1 | 1 |
После обучения сети получаем результаты:
Значение на входе A | Значение на входе B | Значение на выходе RNN |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 0.5 |
1 | 1 | 1 |
Т.е. что недостающую информацию, что противоречивую, сеть RNN трактует как неопределенность, т.е. помечает вероятностью 0.5.
При попытках обучения сети RNN с помощью оптимизации системы линейных неравенств алгоритмом линейного программирования на обучающей выборке, созданной с помощью генератора псевдослучайных последовательностей, значительная часть паттернов имеет на выходе значения равные 0.5, и незначительная значения значения очень близкие к 0.5.
Выводы:
Сеть RNN, обученная алгоритмом линейного программирования, путём оптимизации системы линейных неравенств, способна выявлять (аннигилировать) дезинформацию в обучающей выборке и обучается (склонна к обобщению) только на выявленных закономерностях.
Природа недоразумений
Любое недоразумение — это наличие противоречий в обучающей выборке. Т. е. в обучающей выборке есть некое утверждение о принадлежности паттерна к какому либо классу и есть один или более котрпримеров, опровергающих это самое утверждение и утверждающих о принадлежности аналогичного паттерна к другим классам - неоднозначность классификации.
Откуда берутся недоразумения? Теоретически их причиной могут быть ошибки и неточности, как измерений, так и документирования данных. Предположим, что мы имеем идеальную систему измерений и документирования, в которой любые ошибки и неточности исключены. Тогда основной причиной недоразумений будет являться недостаточность факторов для выявления закономерностей.
Пример:
Пусть у нас есть электрическая цепь, в которую включены последовательно: источник питания, два рубильника А и В, электрическая лампа. Если оба рубильника А и В включены, то электрическая лампочка загорается. Также есть третий рубильник C, который не включен в электрическую цепь.
Предположим, что есть группа ученых, задача которых заключается в том, чтобы выяснить причины свечения электрической лампы в зависимости от состояния включенности или выключенности рубильников. При этом предполагается, что рубильники включаются и выключаются некими третьими лицами, о которых ученым ничего неизвестно. Сами ученые могут только наблюдать за состоянием рубильников и свечением лампочки.
Очевидно, что если ученые имеют возможность наблюдать все рубильники, то рано или поздно они выяснят закономерность, согласно которой лампочка загорается при одновременном включении рубильников А и В и независима от состояния рубильника С.
А теперь предположим, что ученые не имеют никакой возможности наблюдать состояние включенности рубильника B. Что произойдет в этом случае? Очевидно, что произойдет недоразумение, т. е. ученые смогут выяснить, что выключение лампочки связано с выключением рубильника А. Но при включении лампочки они смогут выяснить лишь то, что для этого необходимо, но недостаточно, чтобы рубильник А был включен.
Создадим обучающую выборку из всех возможных взаимоисключающих состояний известных факторов:
Состояние рубильника А | Состояние рубильника C | Состояние электрической лампы | Результат обучения RNN |
---|---|---|---|
Выключен | Выключен | Не горит | 0 |
Выключен | Включен | Не горит | 0 |
Включен | Выключен | Не горит | 0.5 |
Включен | Включен | Не горит | 0.5 |
Включен | Выключен | Горит | 0.5 |
Включен | Включен | Горит | 0.5 |
В этом случае учёным удастся выяснить независимость состояния лампочки от состояния включенности рубильника С, поскольку результат в последнем столбце таблицы — это вероятность того, что рубильник А включен, поделенная на два.
Но полную картину зависимостей состояния лампочки от состояния рубильников выявить никаким образом не удастся, т. к. для этого не достаёт одного фактора — состояния включенности рубильника B.
Выводы: основой противоречий в обучающих выборках является недостаточность факторов. При отсутствии прямой или косвенной информации о значимых факторах в случае независимости состояния известных факторов от состояния значимых.