Ускоренный градиент Нестерова
Материал из MachineLearning.
Ускоренный градиент Нестерова (англ. Nesterov accelerated gradient, NAG) — семейство оптимальных по порядку итеративных методов первого порядка для решения задач выпуклой оптимизации. Метод обеспечивает достижение нижней оценки сложности для класса гладких выпуклых задач, равной , где
— номер итерации[1].
Содержание |
Определение и актуальность в теории оптимизации
В середине 1980-х годов Ю. Е. Нестеровым была доказана нижняя оценка скорости сходимости для класса гладких выпуклых задач минимизации, показывающая, что ни один метод первого порядка не может гарантировать скорость сходимости быстрее, чем . До этой работы стандартный градиентный спуск обеспечивал лишь скорость
.
Ускоренный градиент Нестерова является первым алгоритмом, достигающим этой теоретической нижней границы, что делает его оптимальным в смысле теории вычислительной сложности черного ящика (first-order black-box optimization)[1]. В дальнейшем концепция «ускорения» была обобщена на широкий класс невыпуклых, вариационных и стохастических задач, став фундаментальным строительным блоком современных алгоритмов машинного обучения (например, алгоритма FISTA)[1].
Постановка задачи
Рассмотрим задачу безусловной минимизации:
где целевая функция
удовлетворяет следующим условиям:
- Выпуклость: для любых
выполняется
.
- Гладкость: градиент функции является липшицевым с константой
, то есть для любых
:
Эквивалентное условие гладкости:
Пусть — точка минимума функции
, а
— глобальное минимальное значение.
Описание метода
Классический вариант метода (1983 г.) генерирует две последовательности: основную точку и вспомогательную (экстраполированную) точку
.
Алгоритм:
- Инициализация:
.
- Итерация
:
В данном выражении коэффициент
является частным случаем последовательности
. Существуют эквивалентные формы записи через трехточечный рекуррентный процесс, однако приведенная форма наиболее наглядно демонстрирует механизм «заглядывания вперед» (look-ahead), когда градиент вычисляется не в текущей аппроксимации
, а в экстраполированной точке
.
Теоретические свойства и скорость сходимости
Основной теоретический результат для метода формулируется с помощью техники оценивающих последовательностей (estimate sequences)[1].
Определение. Последовательность функций называется оценивающей последовательностью для функции
, если выполняются два условия:
-
для всех
и всех
.
- Существует такая последовательность
, что
для всех
.
Теорема (О скорости сходимости для гладких выпуклых функций)
Пусть функция выпукла и имеет липшицев градиент с константой
. Тогда для последовательности
, генерируемой ускоренным градиентом Нестерова, выполняется:
Доказательство.
Рассмотрим оценивающую последовательность вида:
где
и
.
В качестве начальной функции выберем
.
Утверждение 1: для всех
. Докажем по индукции.
- База:
является глобальной верхней оценкой для
в силу условия гладкости.
- Шаг индукции: Пусть
. По условию гладкости, выражение в квадратных скобках также является верхней оценкой
. Так как
и
, их выпуклая комбинация
также не превышает
.
Утверждение 2: Выполнение условия .
Найдем минимум правой части выражения для
. Точка минимума квадратичной функции в скобках есть
. Значение в этой точке равно
. Следовательно, минимальное значение
достигается в точке:
Подставляя
и выражение для
, после алгебраических преобразований получаем рекуррентное соотношение
, что в точности совпадает с алгоритмом.
Оценим значение:
Используя предположение индукции
и неравенство Коши-Буняковского-Шварца для градиента, можно показать, что
. Отсюда
.
Утверждение 3: Оценка скорости.
Введем вспомогательную последовательность . Можно показать, что
.
Из разложения оценивающей последовательности в точке
следует:
Подставляя явный вид
, получаем искомую оценку
.
Теорема (О скорости сходимости для сильно выпуклых функций)
Если функция является сильно выпуклой с параметром
, то метод модифицируется путем замены коэффициента экстраполяции на константу:
Тогда скорость сходимости становится линейной:
Свойства метода
- Оптимальность: Метод достигает теоретической нижней границы
для класса гладких выпуклых задач. Изменение константы шага или коэффициента экстраполяции не может улучшить асимптотику по порядку.
- Немонотонность: В отличие от классического градиентного спуска, последовательность значений целевой функции
не является монотонно убывающей. Допускаются локальные возрастания функции на отдельных итерациях.
- Чувствительность к шуму: Метод критически зависит от точности вычисления градиента. При добавлении стохастического шума (в SGD) ускорение может быть утрачено без применения специальных техник стабилизации (например, variance reduction).
- Зависимость от константы Липшица: Практическое применение метода требует знания или оценки константы
. Слишком завышенная оценка приводит к замедлению сходимости, заниженная — к расходимости алгоритма.
Литература
См. также
- Градиентный спуск
- Метод тяжелого шарика
- Выпуклая оптимизация
- Сильно выпуклая функция
- Условие Липшица
- Скорость сходимости
- Метод сопряжённых градиентов
| | Статья написана с использованием LLM и проверена участником Arina Pakalova 14:28, 25 июня 2026 (MSD) |

