Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition

要約

Federated Learning (FL) は、機密情報の交換を必要とせずに、さまざまな関係者間で機械学習モデルの共同トレーニングを可能にする、有望な研究パラダイムです。
それにもかかわらず、個々のクライアントにデータを保持すると、中央でトレーニングされたモデルと同等のパフォーマンスを達成するには根本的な課題が生じます。
私たちの研究では、視覚認識に適用されたフェデレーテッド ラーニングについて広範なレビューを提供しています。
これは、フロリダ州の文献では無視されがちな要素である最適なパフォーマンスを達成する上で、思慮深いアーキテクチャ設計の選択が重要な役割を果たしていることを強調しています。
既存の FL ソリューションの多くは、浅いネットワークまたは単純なネットワークでテストされており、実際のアプリケーションを正確に反映していない可能性があります。
この慣行により、研究結果を大規模な視覚認識モデルに適用することが制限されます。
畳み込みニューラル ネットワーク、トランスフォーマー、MLP ミキサーなどの多様な最先端のアーキテクチャの詳細な分析を通じて、特に異種データを処理する場合、アーキテクチャの選択によって FL システムのパフォーマンスが大幅に向上することを実験的に示します。
私たちは、4 つの困難な FL データセットで 5 つの異なるアーキテクチャ ファミリからの 19 の視覚認識モデルを研究します。
また、FL 設定における畳み込みベースのアーキテクチャの劣ったパフォーマンスを再調査し、FL パフォーマンスに対する正規化層の影響を分析します。
私たちの調査結果は、実際のシナリオにおけるコンピューター ビジョン タスクのアーキテクチャ設計の重要性を強調し、フェデレーション学習と集中学習の間のパフォーマンス ギャップを効果的に縮小します。
私たちのソースコードは https://github.com/sarapieri/fed_het.git で入手できます。

要約(オリジナル)

Federated Learning (FL) is a promising research paradigm that enables the collaborative training of machine learning models among various parties without the need for sensitive information exchange. Nonetheless, retaining data in individual clients introduces fundamental challenges to achieving performance on par with centrally trained models. Our study provides an extensive review of federated learning applied to visual recognition. It underscores the critical role of thoughtful architectural design choices in achieving optimal performance, a factor often neglected in the FL literature. Many existing FL solutions are tested on shallow or simple networks, which may not accurately reflect real-world applications. This practice restricts the transferability of research findings to large-scale visual recognition models. Through an in-depth analysis of diverse cutting-edge architectures such as convolutional neural networks, transformers, and MLP-mixers, we experimentally demonstrate that architectural choices can substantially enhance FL systems’ performance, particularly when handling heterogeneous data. We study 19 visual recognition models from five different architectural families on four challenging FL datasets. We also re-investigate the inferior performance of convolution-based architectures in the FL setting and analyze the influence of normalization layers on the FL performance. Our findings emphasize the importance of architectural design for computer vision tasks in practical scenarios, effectively narrowing the performance gap between federated and centralized learning. Our source code is available at https://github.com/sarapieri/fed_het.git.

arxiv情報

著者 Sara Pieri,Jose Renato Restom,Samuel Horvath,Hisham Cholakkal
発行日 2023-10-23 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク