Multi-Modal Multi-Task (M3T) Federated Foundation Models for Embodied AI: Potentials and Challenges for Edge Integration

要約

具体化されたAIシステムがますますマルチモーダル、パーソナライズ、インタラクティブになるにつれて、多様な感覚入力から効果的に学習し、ユーザーの好みに継続的に適応し、リソースとプライバシーの制約の下で安全に動作する必要があります。
これらの課題は、モデルの一般化とパーソナライズのバランスをとりながら、迅速でコンテキストを意識した適応が可能な機械学習モデルの差し迫ったニーズを明らかにします。
ここでは、2つの方法が適切な候補として出現し、それぞれこれらの機能の一部を提供します。ファンデーションモデル(FMS)は、タスクとモダリティ全体の一般化への経路を提供しますが、フェデレートラーニング(FL)は、分散したプライバシーを提供するモデルの更新とユーザーレベルモデルのパーソナライズのためのインフラストラクチャを提供します。
ただし、単独で使用すると、これらのアプローチのそれぞれは、実際の具体化された環境の複雑で多様な能力要件を満たすことができません。
このビジョンペーパーでは、具体化されたAIのフェデレーションファンデーションモデル(FFM)を導入します。これは、マルチモーダルマルチタスク(M3T)FMの強みをFLのプライバシー提供分布の性質と統合し、ワイヤレスエッジでインテリジェントシステムを可能にします。
統合されたAIエコシステムにおけるFFMの重要な展開ディメンションを統一されたフレームワークの下で収集します。これは、「embody」と呼ばれます。具体化不均一性、モダリティの豊かさと不均衡、帯域幅と計算、継続的な学習、分布コントロールと自律性、および個人化の生成、および個人化の生成。
それぞれについて、具体的な課題を特定し、実用的な研究の方向性を想像します。
また、関連するトレードオフとともに、具体化されたAIシステムにFFMを展開するための評価フレームワークも提示します。

要約(オリジナル)

As embodied AI systems become increasingly multi-modal, personalized, and interactive, they must learn effectively from diverse sensory inputs, adapt continually to user preferences, and operate safely under resource and privacy constraints. These challenges expose a pressing need for machine learning models capable of swift, context-aware adaptation while balancing model generalization and personalization. Here, two methods emerge as suitable candidates, each offering parts of these capabilities: Foundation Models (FMs) provide a pathway toward generalization across tasks and modalities, whereas Federated Learning (FL) offers the infrastructure for distributed, privacy-preserving model updates and user-level model personalization. However, when used in isolation, each of these approaches falls short of meeting the complex and diverse capability requirements of real-world embodied environments. In this vision paper, we introduce Federated Foundation Models (FFMs) for embodied AI, a new paradigm that unifies the strengths of multi-modal multi-task (M3T) FMs with the privacy-preserving distributed nature of FL, enabling intelligent systems at the wireless edge. We collect critical deployment dimensions of FFMs in embodied AI ecosystems under a unified framework, which we name ‘EMBODY’: Embodiment heterogeneity, Modality richness and imbalance, Bandwidth and compute constraints, On-device continual learning, Distributed control and autonomy, and Yielding safety, privacy, and personalization. For each, we identify concrete challenges and envision actionable research directions. We also present an evaluation framework for deploying FFMs in embodied AI systems, along with the associated trade-offs.

arxiv情報

著者 Kasra Borazjani,Payam Abdisarabshali,Fardis Nadimi,Naji Khosravan,Minghui Liwang,Xianbin Wang,Yiguang Hong,Seyyedali Hosseinalipour
発行日 2025-05-16 12:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク