Двойной спуск

Материал из MachineLearning.

(Перенаправлено с Феномен двойного спуска)
Перейти к: навигация, поиск
Статья написана с использованием LLM Gemini 3.5 Pro и проверена участником Vsevolod Peretiatko 13:04, 18 июня 2026 (MSD)


Двойной спуск (англ. Double Descent) — феномен в машинном обучении, заключающийся в немонотонном изменении ошибки обобщения (качества работы на тестовой выборке) при увеличении емкости модели, объема доступных данных или продолжительности обучения.

В рамках классической теории вычислений зависимость ошибки от сложности модели описывается U-образной кривой, отражающей баланс смещения и дисперсии. Однако эффект двойного спуска показывает, что за точкой идеального запоминания данных (порогом интерполяции) существует вторая область — перепараметризованный режим, в котором дальнейшее усложнение архитектуры приводит к повторному и устойчивому снижению тестовой ошибки.

Феномен двойного спуска математически объясняет, почему современные сверхбольшие нейронные сети (включая глубокие сверточные сети и трансформеры) обладают высокой обобщающей способностью и не подвержены катастрофическому переобучению, даже если количество их параметров многократно превосходит объем обучающей выборки, а тренировочный риск доводится до нуля.

Обобщенная кривая двойного спуска, разделенная порогом интерполяции (критическая точка емкости модели, где p ≈ n) на недопараметризованную и перепараметризованную области.
Обобщенная кривая двойного спуска, разделенная порогом интерполяции (критическая точка емкости модели, где p ≈ n) на недопараметризованную и перепараметризованную области.

Содержание

Исторический контекст и феноменология

Классическая статистическая парадигма обучения, уходящая корнями в теорию Вапника — Червоненкиса и принципы регуляризации Тихонова, постулирует необходимость жесткого контроля сложности модели. Согласно этой концепции, избыточная емкость (например, высокая степень аппроксимирующего полинома) неизбежно ведет к подгонке под случайный шум в данных — классическому переобучению (англ. overfitting). Оптимальная обобщающая способность всегда лежит строго до точки емкости, необходимой для полной интерполяции обучающего множества.

Тем не менее, в практике глубокого обучения длительное время зрел эмпирический парадокс. Модели с миллионами настраиваемых весов успешно обучались до нулевой ошибки на тренировочных данных, но при этом демонстрировали превосходное качество аппроксимации на независимых тестах. Первые теоретические предвестники объяснения этого явления возникли еще в 1990-х годах в работах по статистической физике линейных перцептронов (в частности, в исследованиях М. Оппера), где методами реплик исследовались пределы обучения при p > n. В начале 2000-х годов Л. Брейман, анализируя случайные леса и алгоритмы адаптивного бустинга, зафиксировал, что добавление новых базовых классификаторов после достижения идеального разделения выборки не ухудшает, а зачастую улучшает тестовую метрику, что прямо противоречило U-дилемме.

Терминологическое объединение этих наблюдений и их строгое феноменологическое описание было представлено в 2019 году в работе М. Белкина, Д. Сю, С. Ма и С. Мандала. Авторы продемонстрировали, что традиционная U-образная кривая является лишь левой частью более общей, «двугорбой» картины. Они ввели понятие порога интерполяции (англ. interpolation threshold) — критической точки, разделяющей недопараметризованный (классический) и перепараметризованный (современный) режимы. В том же году П. Наккиран обобщил данный эффект для широкого класса глубоких нейросетевых архитектур, введя в оборот термин глубокий двойной спуск (англ. Deep Double Descent) и показав универсальность явления по осям сложности модели, времени обучения и объема данных.

Теоретическое обоснование и механизмы эффекта

Для формализации рассмотрим задачу регрессии. Пусть задано распределение \mathcal{P}(X, Y) на пространстве \mathbb{R}^d \times \mathbb{R}. Обучающая выборка состоит из n пар наблюдений: S = \{(\mathbf{x}_i, y_i)\}_{i=1}^n. Рассматривается параметрическое семейство функций \mathcal{H} = \{f(\mathbf{x}, \mathbf{w}) \mid \mathbf{w} \in \mathbb{R}^p\}, где p обозначает число настраиваемых параметров (размерность пространства весов).

Истинный риск (ошибка обобщения) определяется как: \mathcal{R}(f) = \mathbb{E}_{(\mathbf{x}, y) \sim \mathcal{P}} (f(\mathbf{x}, \mathbf{w}) - y)^2

Эмпирический риск на выборке S задается функционалом: \hat{\mathcal{R}}(f) = \frac{1}{n} \sum_{i=1}^n (f(\mathbf{x}_i, \mathbf{w}) - y_i)^2

Поведение смещения и дисперсии при перепараметризации

Математическая природа двойного спуска раскрывается через классическое разложение ошибки обобщения на квадрат смещения (англ. bias) и дисперсию (англ. variance): \mathcal{R}(f) = \text{Bias}^2 + \text{Variance} + \sigma_{\text{noise}}^2

Поведение смещения и дисперсии в контексте двойного спуска. Острый пик на пороге интерполяции обусловлен неограниченным ростом дисперсии из-за вырождения ковариационной матрицы.
Поведение смещения и дисперсии в контексте двойного спуска. Острый пик на пороге интерполяции обусловлен неограниченным ростом дисперсии из-за вырождения ковариационной матрицы.

При изменении отношения числа параметров p к объему выборки n эти компоненты ведут себя качественно различным образом:

  • В недопараметризованной области (p < n): с ростом p смещение монотонно убывает (модель точнее улавливает истинную зависимость), но дисперсия растет, так как увеличивается чувствительность к случайному шуму выборки.
  • В точке порога интерполяции (p \approx n): система уравнений f(\mathbf{x}_i, \mathbf{w}) = y_i становится разрешимой, но ковариационная матрица признаков X^TX оказывается близка к вырождению. Ее минимальное ненулевое сингулярное значение стремится к нулю, что вызывает катастрофический взрыв числа обусловленности системы (\kappa \to \infty). Дисперсия устремляется в бесконечность, формируя локальный пик тестовой ошибки.
  • В перепараметризованной области (p > n): число доступных решений, доводящих эмпирический риск до нуля (\hat{\mathcal{R}}(f) = 0), становится бесконечным. Смещение стабилизируется на нулевом уровне, а дисперсия начинает монотонно убывать с ростом p.

Неявное смещение и псевдообратная матрица Мура — Пенроуза

Ключевым фактором снижения дисперсии в перепараметризованной зоне выступает неявное смещение (англ. implicit bias) используемых градиентных методов. При обучении с помощью градиентного спуска или SGD из нулевой инициализации алгоритм сходится не к случайному интерполирующему решению, а к решению с минимальной евклидовой нормой весов (\ell_2-нормой): \mathbf{w}^* = \arg\min_{\mathbf{w}} \|\mathbf{w}\|_2^2 при условии f(\mathbf{x}_i, \mathbf{w}) = y_i, \quad \forall i=1, \dots, n

Для линейной регрессии Y = X\mathbf{w} в явном виде это решение задается через псевдообратную матрицу Мура — Пенроуза: \mathbf{w}^* = X^\dagger \mathbf{y} = X^T(XX^T)^{-1}\mathbf{y}

При увеличении размерности p за пределы n геометрия пространства параметров расширяется. Появляется больше степеней свободы для построения гладкой интерполирующей поверхности. Минимально-нормовое решение эффективно распределяет «энергию» предсказания по множеству слабых ортогональных направлений, сглаживая колебания функции между узлами интерполяции.

Теория «доброкачественного переобучения»

Строгое математическое обоснование возможности успешного обобщения в условиях точной интерполяции шума было сформулировано П. Бартлеттом, П. Лонгом, Г. Лугоши и А. Циглером в 2020 году под названием доброкачественное переобучение (англ. benign overfitting).

Они установили, что переобучение является доброкачественным, если спектр собственных значений \lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_p ковариационной матрицы признаков обладает «тяжелым хвостом». Для этого должны выполняться два условия на эффективную размерность (англ. effective dimension):

  1. Избыточные параметры должны быть распределены по большому количеству направлений с малыми, но ненулевыми собственными значениями.
  2. Сумма этих малых собственных значений (след хвоста матрицы) должна быть велика по сравнению с \sqrt{n}.

В этом случае геометрия пространства позволяет вектору параметров \mathbf{w}^* «сгрузить» случайный шум обучающей выборки в бесконечномерный хвост ковариационной матрицы, практически не искажая предсказания на главных, наиболее информативных компонентах данных. Шум изолируется в ортогональных подпространствах и эффективно усредняется, обеспечивая монотонное падение ошибки обобщения при p \to \infty.

Разновидности двойного спуска

Эмпирические и теоретические исследования показали, что эффект двойного спуска является инвариантным свойством нелинейных вычислительных систем и может индуцироваться тремя независимыми факторами (осями) в процессе оптимизации.

Двойной спуск по сложности модели (Model-wise Double Descent)

Это классическая форма проявления феномена. При фиксированном объеме обучающей выборки n и фиксированном (достаточно большом) числе итераций обучения варьируется емкость самого пространства гипотез p (например, ширина скрытых слоев нейросети, количество каналов в сверточных слоях или глубина ансамбля). Локальный максимум ошибки обобщения строго локализуется в окрестности точки p \approx n. По мере дальнейшего роста p \to \infty тестовая ошибка монотонно убывает, стремясь к асимптотическому пределу, который зачастую оказывается ниже глобального минимума из недопараметризованной зоны.

Двойной спуск по времени обучения (Epoch-wise Double Descent)

Данная разновидность проявляется в динамике обучения одной фиксированной перепараметризованной модели (p > n). В процессе оптимизации методом градиентного спуска траектория весов последовательно проходит через различные режимы сложности:

  • На ранних эпохах модель ведет себя как жестко регуляризованная (низкая эффективная емкость), улавливая лишь главные компоненты данных — тестовая ошибка падает.
  • На промежуточных эпохах модель начинает подстраиваться под высокочастотный шум и приближается к порогу интерполяции выборки. Здесь возникает локальный пик переобучения.
  • Если продолжить оптимизацию («сверхнеобходимое» обучение, англ. overtraining), неявное смещение алгоритма минимизирует норму весов, выстраивая максимально гладкую разделяющую поверхность. Ошибка на тесте преодолевает пик и снова снижается.

Время обучения в данном контексте математически выступает как непрерывный параметр, обратный коэффициенту регуляризации Тихонова (t \propto 1/\lambda).

Двойной спуск по объему данных (Sample-wise Double Descent)

Наиболее контринтуитивная форма эффекта, подрывающая классическое представление о том, что расширение выборки всегда полезно. Если зафиксировать сложность модели p и постепенно увеличивать размер обучающей выборки n, то в момент, когда n приближается к p (справа налево по шкале относительной сложности), модель внезапно теряет обобщающую способность. Добавление новых валидных объектов смещает систему в область критического баланса p/n \approx 1, вызывая вырождение ковариационной матрицы и взрыв дисперсии. Таким образом, в условиях фиксированной емкости промежуточный дефицит данных может парадоксальным образом приводить к лучшему качеству на тесте, чем наличие умеренного их количества.

Методы сглаживания пика интерполяции

Острый пик тестовой ошибки на пороге интерполяции представляет собой вычислительную нестабильность. В практических задачах его наличие нежелательно, поскольку случайные флуктуации размерности данных или параметров модели могут привести к критическому падению качества. Для ликвидации пика и превращения «двугорбой» кривой в монотонно убывающую применяются методы явной и неявной регуляризации.

Явная регуляризация (Ridge Regression и Weight Decay)

Математически наиболее строгим методом устранения сингулярности в точке p = n является ограничение евклидовой нормы весов. В задаче линейной регрессии это приводит к гребневой регрессии (англ. Ridge Regression): \mathbf{w}_\lambda = \arg\min_{\mathbf{w}} \left( \frac{1}{n} \|X\mathbf{w} - \mathbf{y}\|_2^2 + \lambda \|\mathbf{w}\|_2^2 \right)

Аналитическое решение имеет вид: \mathbf{w}_\lambda = (X^TX + \lambda I)^{-1}X^T\mathbf{y}

Добавление диагональной матрицы \lambda I (где \lambda > 0) сдвигает спектр оператора X^TX вверх. Минимальное собственное значение теперь строго ограничено снизу величиной \lambda, что препятствует стремлению числа обусловленности к бесконечности. Дисперсия оценки параметров стабилизируется, и пик интерполяции полностью нивелируется. В глубоком обучении этот механизм реализуется через затухание весов (англ. Weight Decay).

Ранняя остановка (Early Stopping)

Ранняя остановка прерывает траекторию градиентного спуска до того, как она успеет достигнуть критической точки интерполяции шума. Поскольку алгоритм сначала обучается вдоль направлений наибольшей вариации данных (соответствующих максимальным собственным значениям ковариационной матрицы), ранняя остановка эффективно «замораживает» избыточные степени свободы, оставляя их близкими к нулю. Это эквивалентно неявной фильтрации малых сингулярных значений.

Стохастическая регуляризация и ансамблирование

Методы, основанные на внесении случайности в процесс обучения (например, Dropout или инжектирование шума во входные признаки), эффективно сглаживают пик интерполяции за счет разрушения точных шумовых корреляций. Модель теряет возможность построить сингулярную разделяющую поверхность, так как геометрия признакового пространства непрерывно деформируется от шага к шагу.

Ансамблирование (в частности, бэггинг) действует аналогично: усреднение предсказаний множества независимых интерполирующих моделей, обученных на подвыборках, приводит к математическому усреднению их случайных высокочастотных колебаний, что резко снижает общую дисперсию ансамбля в критической зоне.

Практические следствия для проектирования архитектур

Открытие двойного спуска перевернуло базовые методологические принципы инженерии признаков и проектирования нейросетевых архитектур.

Отказ от Бритвы Оккама в пользу сверхпараметризации

Традиционный подход предписывал экономию параметров (принцип Бритвы Оккама): следовало выбирать наименьшую модель, способную решить задачу, чтобы избежать переобучения. Современная парадигма глубокого обучения, обоснованная двойным спуском, утверждает обратное: «Сверхпараметризуй и регуляризуй» (англ. Overparameterize and Regularize). Инженеры целенаправленно выбирают архитектуры, чья емкость на несколько порядков превосходит объем обучающей выборки, так как глубокий перепараметризованный режим обеспечивает более устойчивое и высокое качество обобщения.

Концепция «плоских минимумов» (Flat Minima)

В перепараметризованном режиме ландшафт функции потерь меняет свою геометрию. Вместо изолированных локальных экстремумов возникает непрерывное многообразие (плато) глобальных минимумов, обеспечивающих нулевой эмпирический риск (\hat{\mathcal{R}}(f) = 0).

Работа стохастических методов оптимизации в таких пространствах приводит к смещению в сторону так называемых «плоских минимумов» (впервые описанных З. Хохрайтером и Ю. Шмидхубером). В плоской долине малые возмущения весов, вызванные переходом от обучающей выборки к тестовой, не приводят к резкому росту ошибки предсказания, в отличие от «острых минимумов» (англ. sharp minima), характерных для недопараметризованной зоны вблизи порога интерполяции.

Изменение характера отбора признаков

В классических моделях включение избыточных или зашумленных признаков приводило к явлению мультиколлинеарности и требовало обязательного применения процедур отбора признаков (англ. feature selection). В сверхперепараметризованных архитектурах неявное смещение оптимизатора самостоятельно распределяет веса таким образом, что зашумленные компоненты проецируются в «тяжелый хвост» ковариационной матрицы и взаимно уничтожаются, избавляя от необходимости жесткой предварительной фильтрации сигналов.

Феномен в эпоху больших языковых моделей (LLM) и Foundation Models

Масштабирование нейросетей до сотен миллиардов параметров в рамках построения больших языковых моделей (LLM) выявило новые аспекты проявления двойного спуска.

Законы масштабирования (Scaling Laws)

При предобучении (англ. pre-training) современных LLM (таких как GPT-4 или Llama) на гигантских корпусах текстов классический пик двойного спуска по сложности модели практически не наблюдается. Это связано с тем, что параметры вычислительного процесса изначально сбалансированы в соответствии с законами масштабирования: эмпирическими законами Каплана и оптимальными по вычислениям законами Шиншиллы (англ. Reconciling Kaplan and Chinchilla Scaling Laws). Модели разворачиваются глубоко в перепараметризованной области, где кросс-энтропия на тесте монотонно убывает как степенная функция от объема вычислений, размера датасета и числа параметров.

Феномен гроккинга (Grokking)

Феномен гроккинга при обучении на структурированных данных: долгое плато переобучения сменяется внезапным фазовым переходом к идеальной обобщающей способности на тесте.
Феномен гроккинга при обучении на структурированных данных: долгое плато переобучения сменяется внезапным фазовым переходом к идеальной обобщающей способности на тесте.

При обучении трансформеров на небольших алгоритмических или сильно структурированных датасетах обнаруживается экстремальная форма двойного спуска по времени обучения — гроккинг (англ. grokking), открытый в 2022 году.

При гроккинге процесс обучения разделяется на два дискретных этапа:

  1. Модель быстро достигает 100% точности на обучающей выборке (полная интерполяция), однако точность на тесте долгое время остается на уровне случайного угадывания. В этой фазе модель просто «зазубривает» данные, находя сложное, необобщаемое решение с большой нормой весов.
  2. При продолжении оптимизации в течение десятков тысяч дополнительных итераций (далеко за точку нулевого трейн-лосса) происходит внезапный фазовый переход: тестовая точность скачкообразно вырастает до 100%. Градиентный спуск за счет неявного смещения успевает перестроить внутренние репрезентации модели, очищая их от шума и формируя математически идеальную, обобщаемую структуру (например, тригонометрические симметрии при обучении модулярной арифметике).

Риски ранней остановки при тонкой настройке (Fine-tuning)

Эффект двойного спуска по времени обучения накладывает жесткие ограничения на процессы тонкой настройки (англ. fine-tuning) Foundation Models под узкие прикладные домены. Поскольку объем локальных обучающих выборок обычно мал (тысячи объектов), гигантская модель мгновенно сталкивается с порогом интерполяции.

На промежуточных эпохах адаптации валидационные метрики могут демонстрировать резкую деградацию, имитируя классическое переобучение. В этой ситуации стандартная инженерная практика ранней остановки (Early Stopping) оказывается ошибочной: прерывание обучения на пике деградации фиксирует наихудшую модель. Инженеру необходимо продолжить вычисления, позволяя алгоритму преодолеть локальный барьер дисперсии и выйти на плато перепараметризованного обобщения.

Границы применимости и критика эффекта

Несмотря на фундаментальное значение феномена двойного спуска, в научном сообществе существует консенсус относительно того, что данный эффект не является непреодолимым законом природы, а скорее представляет собой следствие субоптимальной настройки процесса оптимизации.

Влияние оптимальной явной регуляризации

Критическое замечание к исследованиям двойного спуска заключается в том, что пик тестовой ошибки искусственно возникает из-за требования достижения нулевого эмпирического риска (так называемой интерполяционной регрессии без гребня, англ. ridgeless regression).

Как показали работы Т. Хасти и соавторов, если вместо этого применять гребневую регрессию с оптимально подобранным коэффициентом \lambda^* (например, через строгую кросс-валидацию), пик интерполяции полностью исчезает. Оптимально регуляризованная модель демонстрирует классическую монотонно убывающую кривую ошибки обобщения без локальных максимумов. Таким образом, двойной спуск ярко выражен только в условиях отсутствия или недостаточной силы явной регуляризации.

Зависимость от функции потерь и метода оптимизации

Степень выраженности пика сильно зависит от выбранной функции потерь. Для среднеквадратичной ошибки (MSE) взрыв дисперсии в точке p = n носит катастрофический характер. Однако для задач классификации, использующих логистическую функцию потерь (кросс-энтропию), ситуация иная: неявное смещение алгоритма на перепараметризованных данных максимизирует отступ (англ. margin). В таких условиях пик интерполяции часто оказывается сглаженным, так как дисперсия контролируется самим процессом максимизации разделяющей полосы.

Кроме того, неявное смещение (то, к какому именно решению сходится модель в перепараметризованной зоне) критически зависит от используемого оптимизатора. Классический Градиентный спуск находит решение с минимальной \ell_2-нормой. Однако использование других алгоритмов, таких как зеркальный спуск (англ. Mirror Descent), проксимальные методы или стратегии координатного спуска (Гаусса — Саутвелла, циклические и случайные), может вести к решениям с минимальной \ell_1-нормой или иной геометрией. Смена оптимизатора радикально меняет спектральные свойства системы, а значит, и асимптотическое поведение ошибки на тесте.

Связь с концепцией нейрокасательного ядра (NTK)

Строгое аналитическое доказательство эффекта двойного спуска для сложных нейросетевых архитектур долгое время оставалось открытой математической проблемой из-за их существенной нелинейности. Прорыв в этом направлении был обеспечен разработкой теории нейрокасательного ядра (англ. Neural Tangent Kernel, NTK), предложенной А. Жако, Ф. Габриэлем и К. Хонглером в 2018 году.

Линеаризация динамики обучения

Теория NTK описывает поведение нейронной сети в пределе её бесконечной ширины. Оказывается, что когда ширина скрытых слоев стремится к бесконечности (h \to \infty), градиенты функции сети по её весам практически перестают изменяться в процессе оптимизации. Это означает, что нейронная сеть переходит в режим «ленивого обучения» (англ. lazy training), а её динамика полностью линеаризуется.

В этом пределе обучение сверхпараметризованной нелинейной архитектуры математически становится эквивалентным классической ядерной гребневой регрессии с фиксированным ядром — нейрокасательным ядром.

Аналитическое выведение двойного спуска

Сведение глубокого обучения к ядерной регрессии позволило исследователям применить мощный математический аппарат теории случайных матриц. Используя свойства спектра матриц в пределе больших размерностей, математики смогли точно вычислить асимптотику риска обобщения для NTK.

Поскольку в режиме NTK нейросеть фактически решает переопределенную линейную систему уравнений в бесконечномерном гильбертовом пространстве, аналитические решения идеально воспроизводят двугорбую кривую по мере роста сложности данных. Таким образом, концепция NTK послужила строгим математическим мостом, связавшим эмпирические наблюдения за глубокими сетями с надежными теоретическими выкладками для линейных моделей.

См. также

Литература

  • Hochreiter S., Schmidhuber J. Flat Minima // Neural Computation. — 1997. — Т. 9. — № 1. — С. 1–42.
  • Opper M. Statistical mechanics of learning: Generalization in the oversized perceptron // Physical Review E. — 1995. — Т. 51. — № 4. — С. 3613–3618.
  • Breiman L. Random Forests // Machine Learning. — 2001. — Т. 45. — № 1. — С. 5–32.
  • Advani M. S., Saxe A. M. High-dimensional dynamics of generalization error in neural networks // Physical Review Research. — 2020. — Т. 2. — № 4. — С. 043167.
  • Belkin M., Hsu D., Ma S., Mandal S. Reconciling modern machine-learning practice and the classical bias–variance trade-off // Proceedings of the National Academy of Sciences. — 2019. — Т. 116. — № 32. — С. 15849–15854.
  • Nakkiran P., Kaplun G., Bansal Y., Yang T., Barak B., Sutskever I. Deep double descent: Where bigger models and more data hurt // International Conference on Learning Representations (ICLR). — 2020.
  • Bartlett P. L., Long P. M., Lugosi G., Tsigler A. Benign overfitting in linear regression // Proceedings of the National Academy of Sciences. — 2020. — Т. 117. — № 48. — С. 30063–30070.
  • Hastie T., Montanari A., Rosset S., Tibshirani R. J. Surprises in high-dimensional ridgeless least squares interpolation // The Annals of Statistics. — 2022. — Т. 50. — № 3. — С. 1249–1286.
  • Power A., Burda Y., Edwards H., Babuschkin I., Misra V. Grokking: Generalization beyond overfitting on small algorithmic datasets // arXiv preprint arXiv:2201.02177. — 2022.
  • Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., Casas D. de Las, Hendricks L. A., Welbl J., Clark A., Hennigan T., Noland N., Millican K., Van Den Driessche G., Damoc B., Guy A., Osindero S., Simonyan K., Elsen E., Rae J. W., Vinyals O., Sifre L. Training Compute-Optimal Large Language Models // Neural Information Processing Systems (NeurIPS). — 2022.
  • Jacot A., Gabriel F., Hongler C. Neural tangent kernel: Convergence and generalization in neural networks // Neural Information Processing Systems (NeurIPS). — 2018. — С. 8571–8580.
  • Nakkiran P., Venkat P., Kakade S., Ma T. Optimal regularization can mitigate double descent // International Conference on Learning Representations (ICLR). — 2021.
  • Dar Y., Muthukumar V., Baraniuk R. G. A farewell to the bias-variance tradeoff? An overview of the theory of overparameterized machine learning // Proceedings of the IEEE. — 2021. — Т. 109. — № 5. — С. 679–694.