要約
異種のラベルなしデータセット間で効率的な視覚表現を学習することは、連携学習における中心的な課題である。効果的な連合表現は、教師なしでのドメイン固有因子の分離を行いながら、クライアント間で共同して有益な特徴を必要とする。我々は、教師なしスロットアテンションを用いた、オブジェクト中心の連合表現学習とクライアント間での特徴適応のための新しいフレームワークであるFORLAを紹介する。本手法の核となるのは、基礎モデルから特徴を適応させるためにクライアント間で協調的に訓練された共有特徴アダプタと、適応された特徴を再構成するために学習する共有スロット注意モジュールである。このアダプタを最適化するために、2分岐の生徒-教師アーキテクチャを設計する。各クライアントにおいて、生徒デコーダは基礎モデルから完全な特徴を再構成することを学習し、教師デコーダは適応された低次元の対応する特徴を再構成する。共有スロットアテンションモジュールは、クライアント間でオブジェクトレベルの表現を整合させることで、領域横断的な学習の橋渡しをする。複数の実世界データセットでの実験により、我々のフレームワークはオブジェクト発見において集中型ベースラインを上回るだけでなく、ドメイン間でうまく汎化するコンパクトで普遍的な表現を学習することが示された。本研究は、分散された概念を持つクロスドメインデータから、スケーラブルで教師なし視覚表現を学習するための効果的なツールとして、連合スロットアテンションを強調する。
要約(オリジナル)
Learning efficient visual representations across heterogeneous unlabeled datasets remains a central challenge in federated learning. Effective federated representations require features that are jointly informative across clients while disentangling domain-specific factors without supervision. We introduce FORLA, a novel framework for federated object-centric representation learning and feature adaptation across clients using unsupervised slot attention. At the core of our method is a shared feature adapter, trained collaboratively across clients to adapt features from foundation models, and a shared slot attention module that learns to reconstruct the adapted features. To optimize this adapter, we design a two-branch student-teacher architecture. In each client, a student decoder learns to reconstruct full features from foundation models, while a teacher decoder reconstructs their adapted, low-dimensional counterpart. The shared slot attention module bridges cross-domain learning by aligning object-level representations across clients. Experiments in multiple real-world datasets show that our framework not only outperforms centralized baselines on object discovery but also learns a compact, universal representation that generalizes well across domains. This work highlights federated slot attention as an effective tool for scalable, unsupervised visual representation learning from cross-domain data with distributed concepts.
arxiv情報
著者 | Guiqiu Liao,Matjaz Jogan,Eric Eaton,Daniel A. Hashimoto |
発行日 | 2025-06-03 14:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |