Участник:Ruzik/Песочница

Материал из MachineLearning.

(Различия между версиями)

Версия 15:57, 3 января 2010

$y^*: \: X \to Y$
$X^l \, = \, (x_i,y_i)_{i=1}^l, \; y_i \, = \, y^*(x_i)$
$Q(w) \, = \, \sum_{i=1}^l L(a(x_i, w), \, y_i) \to \min_w$

$w \, {:=} \, w(1 \, - \, \eta \tau) \, - \, \eta \nabla Q(w)$

$w \, {:=} \, w \, - \, \eta \sum_{i=1}^l L_a^\prime (a(x_i, w), \, y_i) \varphi^\prime (<w, x_i>)x_i$
$w_j \, {:=} \, \frac{<y, f_i>}{<f_i, f_j>}$
$x^j \, {:=} \, \frac{x^j \, - \, x_{\min}^j}{x_{\max}^j \, - \, x_{\min}^j}$
$w$

Содержание

1 Метод стохастического градиента (Stochastic Gradient)
2 Алгоритм Stochastic Gradient (SG)
3 Преимущества SG
4 Недостатки SG и способы борьбы с ними

Метод стохастического градиента (Stochastic Gradient)

Градиентные методы - это широкий класс оптимизационных алгоритмов, используемых не только в машинном обучении. Здесь градиентный подход будет рассмотрен в качестве способа подбора вектора синаптических весов $w$ в линейном классификаторе (ссылка). Пусть $y^*: \: X \to Y$ - целевая зависимость, известная только на объектах обучающей выборки: $X^l \, = \, (x_i,y_i)_{i=1}^l, \; y_i \, = \, y^*(x_i)$ .

Найдём алгоритм $a(x, w)$ , аппроксимирующий зависимость $y^*$ . Согласно принципу минимизации эмпирического риска для этого достаточно решить оптимизационную задачу: $Q(w) \, = \, \sum_{i=1}^l L(a(x_i, w), \, y_i) \to \min_w$ , где $L(a,y)$ - заданная функция потерь.

Для минимизации применим метод градиентного спуска. Это пошаговый алгоритм, на каждой итерации которого вектор $w$ изменяется в направлении наибольшего убывания функционала $Q$ (то есть в направлении антиградиента):

$w \, {:=} \, w \, - \, \eta \nabla Q(w)$ ,

где $\eta$ - положительный параметр, называемый темпом обучения (learning rate).

Возможно 2 основных подхода к реализации градиентного спуска:

Пакетный (batch), когда на каждой итерации обучающая выборка просматривается целиком, и только после этого изменяется $w$ . Это требует больших вычислительных затрат.
Стохастический (stochastic/online), когда на каждой итерации алгоритма из обучающей выборки каким-то (случайным) образом выбирается только один объект. Таким образом вектор w настраивается на каждый вновь выбираемый объект.

Алгоритм Stochastic Gradient (SG)

Вход:

$X^l$ - обучающая выборка
$\eta$ - темп обучения
$\lambda$ - параметр сглаживания функционала $Q$

Выход:

Вектор весов $w$

Тело:

Инициализировать веса $w_j \; j = 0, \dots, n$ ;
Инициализировать текущую оценку функционала:
$Q \, {:=} \, \sum_{i=1}^l L(a(x_i, w), \, y_i)$ ;
Повторять:
1. Выбрать объект $x_i$ из $X^l$ (например, случайным образом);
2. Вычислить выходное значение алгоритма $a(x_i, w)$ и ошибку:
  $\varepsilon_i \, {:=} \, L(a(x_i, w), \, y_i)$ ;
3. Сделать шаг градиентного спуска:
  $w \, {:=} \, w \, - \, \eta L_a^\prime (a(x_i, w), \, y_i) \varphi^\prime (<w, x_i>)x_i$ ;
4. Оценить значение функционала:
  $Q \, {:=} \, (1 \, - \, \lambda)Q \, + \, \lambda\varepsilon_i$ ;
Пока значение $Q$ не стабилизируется и/или веса $w$ не перестанут изменяться.

Порядок выбора объектов

Выше сказано, что в случае стохастического градиентного спуска объекты следует выбирать случайным образом. Однако существуют эвристики, направленные на улучшение сходимости, которые слегка модифицируют обычный случайный выбор:

Перемешивание (shuffling). Предлагается случайно выбирать объекты, но попеременно из разных классов. Идея в том, что объекты из разных классов скорее всего менее "похожи", чем объекты из одного класса, поэтому вектор $w$ будет каждый раз сильнее изменяться.
Возможен вариант алгоритма, когда выбор каждого объекта неравновероятен, причём вероятность выпадения объекта обратно пропорциональна величине ошибки на объекте. Следует заметить, что при такой эвристике метод становится очень чувствителен к шумам.

Способы инициализации весов

Инициализировать вектор $w$ нулями. Этот способ используется очень во многих системах, но совсем не всегда является удачным.
$w_j {:=} rand(-\frac{1}{n}, \frac{1}{n})$ , где $n$ - размерность пространства признаков. Этот подход существенно более удачен, чем предыдущий, если соответствующим образом нормализовать признаковое описание (см. ниже.)
Ещё один подход заключается в том, чтобы решить исходную оптимизационную задачу в случае статистически независимых признаков, линейной функции активации ( $\varphi$ ) и квадратичной функции потерь ( $L$ ). Тогда решение имеет вид:

$w_j \, {:=} \, \frac{<y, f_j>}{<f_j, f_j>}$ .

Параметр сглаживания

В алгоритме для оценки функционала $Q$ на каждой итерации используется его приближённое значение по методу экспоненциального сглаживания, откуда $\lambda$ лучше брать порядка $\frac{1}{l}$ . Если длина выборки избыточно большая, то $\lambda$ следует увеличивать.

Известные частные случаи алгоритма

Метод SG (при соответствующем выборе функций активации и потерь) является обобщением следующих широко распространённых эвристик подбора $w$ и алгоритмов классификации:

Адаптивный линейный элемент (Adalines);
Правило Хэбба;
Алгоритм k-средних (K-Means);
Learning Vector Quantization (LVQ).

Преимущества SG

Метод приспособлен для динамического (online) обучения, когда обучающие объекты поступают потоком, и надо быстро обновлять вектор $w$ .
Алгоритм способен обучаться на избыточно больших выборках за счёт того, что случайной подвыборки может хватить для обучения.
Возможны различные стратегии обучения. Если выборка избыточно большая, или обучение происходит динамически, то допустимо не сохранять обучающие объекты. Если выборка маленькая, то можно повторно предявлять для обучения одни и те же объекты.

Недостатки SG и способы борьбы с ними

Алгоритм может не сходиться или сходиться слишком медленно (см. ниже.)
Как правило, функционал $Q$ многоэкстремален и процесс градиентного спуска может "застрять" в одном из локальных минимумов. Для борьбы с этим используют технику встряхивания коэффициентов (jog of weights). Она заключается в том, чтобы при каждой стабилизации функционала производить случайные модификации вектора $w$ в довольно большой окрестности текущего значения и запускать процесс градиентного спуска из новых точек.
При большой размерности пространства признаков $n$ и/или малой длине выборки $l$ возможно переобучение, то есть классификация становится неустойчивой, и вероятность ошибки увеличивается. При этом сильно возрастает норма вектора весов. Для борьбы с данным недостатком используют метод сокращения весов (weights decay). Он заключается в том, чтобы ограничить возможный рост нормы $w$ , добавив к $Q(w)$ штрафное слагаемое: $Q_{\tau}(w) \, = \, Q(w) \, + \, \frac{\tau}{2}||w||^2$ . В результате правило обновления весов принимает вид:

$w \, {:=} \, w(1 \, - \, \eta \tau) \, - \, \eta \nabla Q(w)$ .

Если функция активации имеет горизонтальные асимптоты, то процесс может попасть в состояние "паралича". При больших значениях скалярного произведения $<w, x_i>$ значение $\varphi^\prime$ становится близким к нулю и вектор $w$ перестаёт существенно изменяться. Поэтому общей практикой является предварительная нормализация признаков:

$x^j \, {:=} \, \frac{x^j \, - \, x_{\min}^j}{x_{\max}^j \, - \, x_{\min}^j}, \; j = 1, \dots, n$ , где $x_{\min}^j, \, x_{\max}^j$ - соответственно минимальное и максимальное отклонения j-го признака. Если при этом $w_j = rand(-\frac{1}{n}, \frac{1}{n})$ , то $<w, x> \in [-1,1].$

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Ruzik/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

@@ Строка 80: / Строка 80: @@
 ::<tex>w \, {:=} \, w(1 \, - \, \eta \tau) \, - \, \eta \nabla Q(w)</tex>.
 *Если функция активации имеет горизонтальные асимптоты, то процесс может попасть в состояние "паралича". При больших значениях скалярного произведения <tex><w, x_i></tex> значение <tex>\varphi^\prime</tex> становится близким к нулю и вектор <tex>w</tex> перестаёт существенно изменяться. Поэтому общей практикой является предварительная нормализация признаков:
-::<tex>x^j \, {:=} \, \frac{x^j \, - \, x_{\min}^j}{x_{\max}^j \, - \, x_{\min}^j}, \; j = 1, \dots, n</tex>, где <tex>x_{\min}^j, \, x_{\max}^j</tex> - соответственно минимальное и максимальное отклонения j-го признака. Если при этом <tex>w_j = rand(-\frac{1}{n}, \frac{1}{n})</tex>, то <tex><w, x> \in [-1,1]</tex>.
+::<tex>x^j \, {:=} \, \frac{x^j \, - \, x_{\min}^j}{x_{\max}^j \, - \, x_{\min}^j}, \; j = 1, \dots, n</tex>, где <tex>x_{\min}^j, \, x_{\max}^j</tex> - соответственно минимальное и максимальное отклонения j-го признака. Если при этом <tex>w_j = rand(-\frac{1}{n}, \frac{1}{n})</tex>, то <tex><w, x> \in [-1,1].</tex>