Федеративное обучение

Материал из MachineLearning.

Версия от 17:08, 29 июня 2026; Daniil Nikolaev (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM DeepSeek-V3 и проверена участником Д. Николаев 17:37, 29 июня 2026 (MSD)

Содержание

1 Мотивация
2 История
3 Архитектура
4 Математическая постановка задачи
5 Проблема статистической гетерогенности (Non-IID данные)
6 Современные методы и направления
- 6.1 Персонализированное федеративное обучение (pFL)
- 6.2 Кластеризованное федеративное обучение (CFL)
7 Алгоритмы, борющиеся с «дрейфом клиентов»
8 Фундаментальные компромиссы (Trade-offs)
- 8.1 Смещение и дисперсия при частичном участии
- 8.2 Влияние количества локальных шагов (K)
9 Связь с теорией распределённой оптимизации
10 Коммуникационные ограничения
11 Алгоритмы оптимизации
- 11.1 Federated Averaging (FedAvg)
- 11.2 Адаптивные методы федеративной оптимизации
12 Безопасность и конфиденциальность
- 12.1 Безопасная агрегация (Secure Aggregation)
- 12.2 Дифференциальная приватность
13 Применения
14 См. также
15 Литература

Федеративное обучение (Federated Learning, FL) — парадигма машинного обучения, в которой несколько клиентов (например, мобильные устройства, организации или пограничные узлы) совместно обучают модель под координацией центрального сервера, при этом исходные данные остаются на устройствах клиентов и никогда не передаются на сервер. Федеративное обучение позволяет решать задачи машинного обучения в условиях, когда централизованный сбор данных невозможен или нежелателен по соображениям конфиденциальности, безопасности или пропускной способности каналов связи.

Мотивация

Традиционные подходы к машинному обучению предполагают централизацию всех обучающих данных на одном сервере или в дата-центре. Однако во многих практических сценариях такой сбор данных наталкивается на серьёзные препятствия:

Конфиденциальность и защита данных: пользователи могут не желать передавать свои личные данные (текстовые сообщения, историю посещений, медицинские записи) на сервер.
Объём данных: на мобильных устройствах и устройствах интернета вещей генерируются огромные объёмы данных, передача которых на сервер требует значительных затрат энергии и пропускной способности.
Задержка: передача данных на сервер и обратно вносит дополнительную задержку, критичную для приложений реального времени.
Юридические ограничения: во многих юрисдикциях действуют законы, запрещающие передачу определённых категорий данных за пределы организации или страны (например, GDPR в Европейском союзе).

Федеративное обучение предлагает альтернативный подход: данные никогда не покидают устройство клиента, а на сервер передаются лишь обновления модели (градиенты или веса), вычисленные локально. Это позволяет обучать модели, используя данные всех клиентов, без необходимости их централизованного хранения.

История

Концепция федеративного обучения была впервые предложена исследователями Google Бренданом МакМаханом (Brendan McMahan) и Дэниелом Рэмиджем (Daniel Ramage) в 2016 году. В апреле 2017 года они опубликовали официальный блог-пост, в котором представили федеративное обучение как новый подход к обучению моделей на мобильных устройствах.

Первым практическим применением федеративного обучения стала клавиатура Gboard для Android, где FL использовалось для улучшения модели предсказания следующего слова. В этом приложении каждое устройство локально хранит информацию о контексте ввода и о том, выбрал ли пользователь предложенный вариант. Федеративное обучение обрабатывает эту историю на устройстве и предлагает улучшения для следующей итерации модели.

Основополагающая статья, в которой был формализован алгоритм Federated Averaging (FedAvg), была опубликована МакМаханом и соавторами в 2017 году. В этой работе авторы показали, что FedAvg позволяет обучать глубокие сети, используя в 10–100 раз меньше коммуникаций по сравнению с наивной федеративной версией стохастического градиентного спуска (SGD).

Архитектура

Архитектура федеративного обучения обычно следует клиент-серверной модели и включает следующие компоненты:

Сервер — центральный узел, который инициализирует глобальную модель, рассылает её клиентам, агрегирует полученные обновления и обновляет глобальную модель.
Клиенты — устройства или узлы, которые хранят локальные данные, получают текущую глобальную модель от сервера, выполняют несколько шагов локального обучения на своих данных и отправляют обновления (веса модели или градиенты) обратно на сервер.

Типичный цикл федеративного обучения состоит из следующих шагов:

Сервер инициализирует глобальную модель $\theta^{(0)}$ .

На каждой итерации (раунде) $t = 1, 2, \dots, T$ :

Сервер выбирает подмножество клиентов $\mathcal{S}_t$ для участия в раунде.
Сервер рассылает текущую глобальную модель $\theta^{(t-1)}$ выбранным клиентам.
Каждый клиент $i \in \mathcal{S}_t$ выполняет локальное обучение на своих данных, используя $\theta^{(t-1)}$ в качестве начальной точки, и вычисляет обновление $\Delta_i^{(t)}$ .
Клиенты отправляют обновления $\Delta_i^{(t)}$ на сервер.
Сервер агрегирует полученные обновления (например, усредняет их) и обновляет глобальную модель: $\theta^{(t)} = \theta^{(t-1)} + \text{Aggregate}\left(\{\Delta_i^{(t)}\}_{i \in \mathcal{S}_t}\right)$ .

Выбор клиентов для участия в каждом раунде является важной практической задачей. В кросс-устройственном сценарии (cross-device FL) в каждом раунде участвует лишь небольшая доля клиентов, и клиенты не могут сохранять состояние между раундами. В кросс-силосном сценарии (cross-silo FL) большинство клиентов участвует в каждом раунде и может сохранять состояние.

Математическая постановка задачи

Пусть имеется $N$ клиентов, каждый из которых обладает своим набором данных $\mathcal{D}_i$ . Цель федеративного обучения — найти параметры модели $\theta$ , минимизирующие сумму локальных функций потерь: $\min_{\theta} \left[ f(\theta) = \sum_{i=1}^{N} p_i f_i(\theta) \right],$

где $f_i(\theta) = \mathbb{E}_{(x,y) \sim \mathcal{D}_i} \ell(f(x; \theta), y)$ — локальная функция потерь клиента $i$ , $\ell$ — функция потерь, а $p_i \ge 0$ — вес клиента (обычно $p_i = \frac{|\mathcal{D}_i|}{\sum_j |\mathcal{D}_j|}$ ). Важно отметить, что данные $\mathcal{D}_i$ распределены по клиентам и могут существенно различаться по своим статистическим свойствам.

Проблема статистической гетерогенности (Non-IID данные)

Одним из ключевых вызовов федеративного обучения является статистическая гетерогенность — ситуация, когда данные на разных клиентах не являются независимыми и одинаково распределёнными (non-Independently and Identically Distributed, non-IID). В отличие от традиционного распределённого обучения, где данные обычно перемешиваются (шаффлятся) для обеспечения IID-свойств, в FL данные остаются на устройствах и естественным образом отражают поведение конкретных пользователей.

Статистическая гетерогенность может проявляться в различных формах:

Смещение распределения признаков (covariate shift) — у разных клиентов различаются распределения входных признаков $P(x)$ .
Смещение распределения меток (label shift) — у разных клиентов различаются распределения целевых меток $P(y)$ .
Смещение совместного распределения — различаются совместные распределения $P(x, y)$ .
Различный объём данных — у разных клиентов существенно разное количество обучающих примеров.

Негативные последствия статистической гетерогенности были впервые систематически выявлены МакМаханом и соавторами. Основные проблемы включают:

Дрейф клиентов (client drift) — локальные модели клиентов «уходят» в стороны, соответствующие их локальным распределениям данных, что затрудняет сходимость глобальной модели.
Замедленная сходимость — FedAvg на не-IID данных может сходиться медленнее или даже расходиться.
Снижение точности — глобальная модель может показывать худшие результаты по сравнению с моделью, обученной на IID-данных.

Анализ сходимости FedAvg на не-IID данных остаётся активной областью исследований. Для сильно выпуклых и гладких задач установлена скорость сходимости $\mathcal{O}(1/T)$ , где $T$ — число раундов.

Современные методы и направления

Классический FL (FedAvg) обучает одну глобальную модель для всех клиентов. Однако в условиях гетерогенных данных это неэффективно, что привело к появлению двух магистральных направлений.

Персонализированное федеративное обучение (pFL)

Цель персонализированного федеративного обучения — обучить не одну, а персонализированную модель для каждого клиента, которая лучше всего подходит именно для его локальных данных. Вместо поиска единого глобального оптимума pFL ищет компромисс, позволяя моделям «отклоняться» от глобальной в сторону локальных распределений. Существующие подходы классифицируются на пять ключевых методологий: методы, основанные на данных, оптимизации клиентской модели, оптимизации серверной агрегации, глобальной архитектуре, а также методы с использованием больших моделей и прототипов.

Кластеризованное федеративное обучение (CFL)

Кластеризованное федеративное обучение решает проблему гетерогенности, группируя клиентов со схожими распределениями данных в отдельные кластеры. Вместо одной глобальной модели CFL обучает несколько моделей — по одной на кластер. Это особенно эффективно, когда данные клиентов естественным образом распадаются на несколько различных типов. Современные классификации CFL-алгоритмов разделяют их на серверные, клиентские и метаданные подходы.

Алгоритмы, борющиеся с «дрейфом клиентов»

Основная проблема FedAvg на гетерогенных данных — «дрейф клиентов» (client drift). Локальные модели, обучаясь на своих не-IID данных, «уходят» в разные стороны, что замедляет сходимость и снижает качество глобальной модели. Для борьбы с этим были разработаны специализированные алгоритмы.

FedProx

Вместо того чтобы просто усреднять локальные модели, FedProx добавляет в функцию потерь каждого клиента проксимальный член (proximal term). Этот член штрафует локальные обновления за слишком сильное отклонение от глобальной модели, эффективно «привязывая» их к общему решению. Теоретически FedProx обеспечивает гарантии сходимости при обучении на данных из неодинаковых распределений, а практически демонстрирует значительно более стабильную сходимость, чем FedAvg, улучшая абсолютную точность на тестовых данных в среднем на 22% в сильно гетерогенных условиях.

SCAFFOLD

Этот алгоритм использует контрольные переменные (control variates) для оценки «дрейфа» каждого клиента. SCAFFOLD корректирует локальные обновления, компенсируя этот дрейф, что позволяет ему сходиться значительно быстрее FedAvg. Доказано, что SCAFFOLD требует существенно меньшего числа коммуникационных раундов и не подвержен влиянию гетерогенности данных или семплирования клиентов.

MOON

Алгоритм MOON (Model-Contrastive Federated Learning) использует идеи из контрастного обучения на уровне моделей. Ключевая идея MOON — использовать сходство между представлениями моделей для коррекции локального обучения отдельных участников, проводя контрастное обучение на уровне модели. Эксперименты показывают, что MOON значительно превосходит другие современные алгоритмы федеративного обучения на различных задачах классификации изображений.

Фундаментальные компромиссы (Trade-offs)

Современный FL — это не просто поиск алгоритма, а управление сложными компромиссами.

Смещение и дисперсия при частичном участии

В реальных условиях в каждом раунде участвует лишь подмножество клиентов. Это вносит смещение (bias) и дисперсию (variance) в процесс обновления глобальной модели. Выбор стратегии семплирования клиентов становится критическим: он напрямую влияет на то, насколько быстро и стабильно будет сходиться модель. Недавние обзоры показывают, что ограниченное внимание уделялось практическим и теоретическим вызовам, возникающим из-за частичного участия клиентов, которое распространено в реальных сценариях.

Влияние количества локальных шагов (K)

Увеличение числа локальных шагов SGD (K) снижает коммуникационные затраты, но может привести к тому, что локальные модели будут слишком сильно «уходить» в сторону своих данных, увеличивая «дрейф». Это создает классический компромисс между коммуникационной эффективностью и качеством/стабильностью обучения. В работе SCAFFOLD впервые было количественно оценено влияние локальных шагов в распределённой оптимизации.

Связь с теорией распределённой оптимизации

FL — это частный случай распределённой оптимизации. Глубже, чем просто $\mathcal{O}(1/T)$ , современная теория изучает:

Сходимость в невыпуклых задачах: анализ FedAvg и других алгоритмов для невыпуклых функций потерь, характерных для глубокого обучения.
Влияние гетерогенности на скорость сходимости: как разница в распределениях данных влияет на константы в оценках сходимости.
Адаптивные и проксимальные методы: теоретическое обоснование того, как FedProx, SCAFFOLD и другие алгоритмы изменяют ландшафт оптимизации и обеспечивают лучшую сходимость.

Коммуникационные ограничения

Коммуникационная эффективность является критическим фактором в федеративном обучении, особенно в кросс-устройственных сценариях с миллионами мобильных устройств. Основные проблемы включают:

Ограниченная пропускная способность — особенно на upload (скорость загрузки данных с устройства на сервер обычно значительно ниже скорости скачивания).
Высокая задержка — соединения с мобильными устройствами имеют значительно более высокую задержку по сравнению с соединениями внутри дата-центров.
Прерывистая доступность — устройства могут быть доступны только периодически (например, когда они подключены к Wi-Fi и заряжаются).

Для преодоления этих ограничений разработаны различные подходы:

Локальные вычисления — клиенты выполняют несколько шагов SGD на своих данных перед отправкой обновления, что значительно сокращает число коммуникационных раундов.
Сжатие обновлений — использование квантования, разреживания и случайных вращений для уменьшения объёма передаваемых данных.
Частичное участие — в каждом раунде выбирается только подмножество клиентов.

Алгоритмы оптимизации

Federated Averaging (FedAvg)

Federated Averaging (FedAvg) является базовым и наиболее широко используемым алгоритмом федеративного обучения. Алгоритм был предложен МакМаханом и соавторами в 2017 году.

FedAvg решает задачу оптимизации в течение $T$ раундов, взаимодействуя с $M$ случайными клиентами в каждом раунде следующим образом:

Сервер рассылает текущие параметры модели $\theta$ клиентам.
Каждый клиент выполняет $K$ шагов SGD на своих локальных данных.
Сервер собирает финальные итерации SGD от клиентов и усредняет их для обновления глобальной модели.

Алгоритм эффективен с вычислительной точки зрения: требуется $\mathcal{O}(d)$ вычислений как на клиентах, так и на сервере, и $\mathcal{O}(d)$ коммуникаций между каждым клиентом и сервером, где $d$ — размерность модели.

Однако FedAvg имеет и недостатки. Как было показано в ряде работ, алгоритм может демонстрировать проблемы сходимости в некоторых условиях:

Дрейф клиентов — локальные модели клиентов отклоняются от глобального оптимума.
Отсутствие адаптивности — FedAvg по духу близок к SGD и может быть непригоден для задач с тяжёлыми хвостами распределений.

Адаптивные методы федеративной оптимизации

В нефедеративных (централизованных) задачах адаптивные методы оптимизации (AdaGrad, Adam, Yogi) показали значительный успех благодаря автоматической настройке скорости обучения для каждого параметра. В работе Reddi и соавторов (2021) были предложены федеративные версии этих оптимизаторов — FedAdaGrad, FedAdam и FedYogi.

Ключевая идея адаптивных федеративных методов заключается в разделении оптимизации на два уровня:

Локальный уровень — клиенты выполняют несколько шагов локального оптимизатора (например, SGD).
Глобальный уровень — сервер использует адаптивный оптимизатор (AdaGrad, Adam или Yogi) для агрегации полученных обновлений.

В работе Reddi и соавторов выполнен анализ сходимости этих методов в присутствии гетерогенных данных для общих невыпуклых постановок. Результаты экспериментов показали, что использование адаптивных оптимизаторов может значительно улучшить производительность федеративного обучения.

Например, FedAdaGrad использует на сервере накопление квадратов градиентов (аналогично классическому AdaGrad) для адаптивной коррекции шага обновления. Сравнительные эксперименты показывают, что FedAdaGrad может достигать более высокого качества модели по сравнению с FedAvg, особенно в условиях сильно неоднородных данных.

Безопасность и конфиденциальность

Хотя федеративное обучение по своей природе обеспечивает определённый уровень конфиденциальности (данные не передаются на сервер), исследования показывают, что сами по себе обновления модели (градиенты или веса) могут раскрывать информацию об исходных данных через атаки по инференсу (inference attacks). Для усиления защиты применяются два основных подхода.

Безопасная агрегация (Secure Aggregation)

Безопасная агрегация (Secure Aggregation) — это класс протоколов безопасных многосторонних вычислений, в которых группа взаимно недоверяющих сторон, каждая из которых владеет приватным значением $x_u$ , совместно вычисляет агрегированное значение (например, сумму $\sum_u x_u$ ), не раскрывая друг другу никакой информации о своих приватных значениях, кроме той, что может быть получена из самого агрегированного значения.

В контексте федеративного обучения безопасная агрегация используется для защиты конфиденциальности градиентов каждого пользователя. Протокол, предложенный Бонавицем и соавторами (2016), является коммуникационно-эффективным, устойчивым к отказу до $1/3$ пользователей и обеспечивает $1.73\times$ – $1.98\times$ коммуникационную избыточность для векторов размерности до $2^{24}$ .

Дифференциальная приватность

Дифференциальная приватность (Differential Privacy, DP) — это строгая математическая гарантия, ограничивающая информацию, которую можно извлечь о конкретной записи в наборе данных. В федеративном обучении DP часто применяется путём добавления контролируемого шума к обновлениям модели перед их отправкой на сервер.

Сочетание дифференциальной приватности и федеративного обучения позволяет получить формальные гарантии приватности на уровне пользователя. Например, в Gboard используется алгоритм DP-FTRL (Differentially Private Follow-The-Regularized-Leader) для достижения формальных DP-гарантий. При этом добавление шума неизбежно ухудшает точность модели, и поиск оптимального компромисса между приватностью и точностью (privacy-utility tradeoff) является активной областью исследований.

Применения

Федеративное обучение нашло применение в различных областях:

Мобильные устройства — улучшение клавиатур (Gboard), предсказание следующего слова, персонализация рекомендаций.
Здравоохранение — совместное обучение моделей на медицинских данных разных клиник без передачи чувствительной информации о пациентах.
Интернет вещей — обучение моделей на устройствах IoT в условиях ограниченной пропускной способности.
Финансы — построение моделей кредитного скоринга и обнаружения мошенничества на данных разных банков.

См. также

Литература

McMahan, H. B., Moore, E., Ramage, D., Hampson, S., & y Arcas, B. A. Communication-Efficient Learning of Deep Networks from Decentralized Data // Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). — 2017. — С. 1273–1282.

Kairouz, P., et al. Advances and Open Problems in Federated Learning // Foundations and Trends in Machine Learning. — 2021. — Т. 14. — № 1–2. — С. 1–210.

Li, T., Sahu, A. K., Talwalkar, A., & Smith, V. Federated Learning: Challenges, Methods, and Future Directions // IEEE Signal Processing Magazine. — 2020. — Т. 37. — № 3. — С. 50–60.

Zhao, Y., Li, M., Lai, L., Suda, N., Civin, D., & Chandra, V. Federated Learning with Non-IID Data // arXiv preprint arXiv:1806.00582. — 2018.

Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A., & Smith, V. Federated Optimization in Heterogeneous Networks // Proceedings of Machine Learning and Systems (MLSys). — 2020.

Karimireddy, S. P., Kale, S., Mohri, M., Reddi, S., Stich, S., & Suresh, A. T. SCAFFOLD: Stochastic Controlled Averaging for Federated Learning // Proceedings of the 37th International Conference on Machine Learning (ICML). — 2020. — С. 5132–5143.

Reddi, S. J., Charles, Z., Zaheer, M., Garrett, Z., Rush, K., Konečný, J., Kumar, S., & McMahan, H. B. Adaptive Federated Optimization // International Conference on Learning Representations (ICLR). — 2021.

Li, Q., He, B., & Song, D. Model-Contrastive Federated Learning // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2021. — С. 10713–10722.

Bonawitz, K., Ivanov, V., Kreuter, B., Marcedone, A., McMahan, H. B., Patel, S., Ramage, D., Segal, A., & Seth, K. Practical Secure Aggregation for Federated Learning on User-Held Data // NeurIPS Workshop on Private Multi-Party Machine Learning. — 2016.

Fan, B., Jiang, S., Su, X., Tarkoma, S., & Hui, P. A Survey on Model-heterogeneous Federated Learning: Problems, Methods, and Prospects // 2024 IEEE International Conference on Big Data (BigData). — 2024. — С. 7725–7734.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5»

Категории: Машинное обучение | Распределённые вычисления | Конфиденциальность в компьютерных системах | Оптимизация