Участник:Ruzik/Песочница

Материал из MachineLearning.

Версия от 13:57, 3 января 2010; Ruzik (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

$y^*: \: X \to Y$
$X^l \, = \, (x_i,y_i)_{i=1}^l, \; y_i \, = \, y^*(x_i)$
$Q(w) \, = \, \sum_{i=1}^l L(a(x_i, w), \, y_i) \to \min_w$
$w \, {:=} \, w \, - \, \eta \nabla Q(w)$
$w \, {:=} \, w \, - \, \eta \sum_{i=1}^l L_a^\prime (a(x_i, w), \, y_i) \varphi^\prime (<w, x_i>)x_i$
$w_j \, {:=} \, \frac{<y, f_i>}{<f_i, f_j>}$
$x^j \, {:=} \, \frac{x^j \, - \, x_{\min}^j}{x_{\max}^j \, - \, x_{\min}^j}$
$w$

Содержание

1 Метод стохастического градиента (Stochastic Gradient)
2 Алгоритм Stochastic Gradient (SG)

Метод стохастического градиента (Stochastic Gradient)

Градиентные методы - это широкий класс оптимизационных алгоритмов, используемых не только в машинном обучении. Здесь градиентный подход будет рассмотрен в качестве способа подбора вектора синаптических весов $w$ в линейном классификаторе (ссылка). Пусть $y^*: \: X \to Y$ - целевая зависимость, известная только на объектах обучающей выборки: $X^l \, = \, (x_i,y_i)_{i=1}^l, \; y_i \, = \, y^*(x_i)$ .

Найдём алгоритм $a(x, w)$ , аппроксимирующий зависимость $y^*$ . Согласно принципу минимизации эмпирического риска для этого достаточно решить оптимизационную задачу: $Q(w) \, = \, \sum_{i=1}^l L(a(x_i, w), \, y_i) \to \min_w$ , где $L(a,y)$ - заданная функция потерь.

Для минимизации применим метод градиентного спуска. Это пошаговый алгоритм, на каждой итерации которого вектор $w$ изменяется в направлении наибольшего убывания функционала $Q$ (то есть в направлении антиградиента):

$w \, {:=} \, w \, - \, \eta \nabla Q(w)$ ,

где $\eta$ - положительный параметр, называемый темпом обучения (learning rate).

Возможно 2 основных подхода к реализации градиентного спуска:

Пакетный (batch), когда на каждой итерации обучающая выборка просматривается целиком, и только после этого изменяется $w$ . Это требует больших вычислительных затрат.
Стохастический (stochastic/online), когда на каждой итерации алгоритма из обучающей выборки каким-то (случайным) образом выбирается только один объект. Таким образом вектор w настраивается на каждый вновь выбираемый объект.

Алгоритм Stochastic Gradient (SG)

Вход:

$X^l$ - обучающая выборка
$\eta$ - темп обучения
$\lambda$ - параметр сглаживания функционала $Q$

Выход:

Вектор весов $w$

Тело:

Инициализировать веса $w_j \; j = 0, \dots, n$ ;
Инициализировать текущую оценку функционала:
$Q \, {:=} \, \sum_{i=1}^l L(a(x_i, w), \, y_i)$ ;
Повторять:
1. Выбрать объект $x_i$ из $X^l$ (например, случайным образом);
2. Вычислить выходное значение алгоритма $a(x_i, w)$ и ошибку:
  $\varepsilon_i \, {:=} \, L(a(x_i, w), \, y_i)$ ;
3. Сделать шаг градиентного спуска:
  $w \, {:=} \, w \, - \, \eta L_a^\prime (a(x_i, w), \, y_i) \varphi^\prime (<w, x_i>)x_i$ ;
4. Оценить значение функционала:
  $Q \, {:=} \, (1 \, - \, \lambda)Q \, + \, \lambda\varepsilon_i$ ;
Пока значение $Q$ не стабилизируется и/или веса $w$ не перестанут изменяться.

Порядок выбора объектов

Выше сказано, что в случае стохастического градиентного спуска объекты следует выбирать случайным образом. Однако существуют эвристики, направленные на улучшение сходимости, которые слегка модифицируют обычный случайный выбор:

Перемешивание (shuffling). Предлагается случайно выбирать объекты, но попеременно из разных классов. Идея в том, что объекты из разных классов скорее всего менее "похожи", чем объекты из одного класса, поэтому вектор $w$ будет каждый раз сильнее изменяться.
Возможен вариант алгоритма, когда выбор каждого объекта неравновероятен, причём вероятность выпадения объекта обратно пропорциональна величине ошибки на объекте. Следует заметить, что при такой эвристике метод становится очень чувствителен к шумам.

Способы инициализации весов

Инициализировать вектор $w$ нулями. Этот способ используется очень во многих системах, но совсем не всегда является удачным.
$w_j {:=} rand(-\frac{1}{n}, \frac{1}{n})$ , где $n$ - размерность пространства признаков. Этот подход существенно более удачен, чем предыдущий, если соответствующим образом нормализовать признаковое описание (см. ниже.)
Ещё один подход заключается в том, чтобы решить исходную оптимизационную задачу в случае статистически независимых признаков, линейной функции активации ( $\varphi$ ) и квадратичной функции потерь ( $L$ ). Тогда решение имеет вид:

$w_j \, {:=} \, \frac{<y, f_j>}{<f_j, f_j>}$ .

Параметр сглаживания

В алгоритме для оценки функционала $Q$ на каждой итерации используется его приближённое значение по методу экспоненциального сглаживания, откуда $\lambda$ лучше брать $\thicksim \frac{1}{l}$ . Если длина выборки избыточно большая, то $\lambda$ следует увеличивать.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Ruzik/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

Участник:Ruzik/Песочница

Материал из MachineLearning.

Содержание

Метод стохастического градиента (Stochastic Gradient)

Алгоритм Stochastic Gradient (SG)

Порядок выбора объектов

Способы инициализации весов

Параметр сглаживания

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты