要約
具体化されたマルチモーダル大規模モデル(EMLM)は、複雑で現実世界の環境における知覚、認知、および行動のギャップを埋める可能性があるため、近年大きな注目を集めています。
この包括的なレビューでは、大規模な言語モデル(LLMS)、大型ビジョンモデル(LVM)、その他のモデルなど、そのようなモデルの開発を調査しながら、他の新興アーキテクチャも調査します。
具体化された知覚、ナビゲーション、相互作用、およびシミュレーションに焦点を当てて、EMLMSの進化について説明します。
さらに、このレビューは、これらのモデルのトレーニングと評価に使用されるデータセットの詳細な分析を提供し、効果的な学習のための多様で高品質のデータの重要性を強調しています。
この論文は、スケーラビリティ、一般化、リアルタイムの意思決定の問題など、EMLMが直面する重要な課題も特定しています。
最後に、将来の方向性を概説し、ますます自律的なシステムの開発を進めるためのマルチモーダルセンシング、推論、および行動の統合を強調しました。
最先端の方法の詳細な分析を提供し、重要なギャップを特定することにより、このペーパーは、EMLMSとそのアプリケーションの多様なドメイン全体のアプリケーションの将来の進歩を促すことを目的としています。
要約(オリジナル)
Embodied multimodal large models (EMLMs) have gained significant attention in recent years due to their potential to bridge the gap between perception, cognition, and action in complex, real-world environments. This comprehensive review explores the development of such models, including Large Language Models (LLMs), Large Vision Models (LVMs), and other models, while also examining other emerging architectures. We discuss the evolution of EMLMs, with a focus on embodied perception, navigation, interaction, and simulation. Furthermore, the review provides a detailed analysis of the datasets used for training and evaluating these models, highlighting the importance of diverse, high-quality data for effective learning. The paper also identifies key challenges faced by EMLMs, including issues of scalability, generalization, and real-time decision-making. Finally, we outline future directions, emphasizing the integration of multimodal sensing, reasoning, and action to advance the development of increasingly autonomous systems. By providing an in-depth analysis of state-of-the-art methods and identifying critical gaps, this paper aims to inspire future advancements in EMLMs and their applications across diverse domains.
arxiv情報
著者 | Shoubin Chen,Zehao Wu,Kai Zhang,Chunyu Li,Baiyang Zhang,Fei Ma,Fei Richard Yu,Qingquan Li |
発行日 | 2025-02-21 09:41:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google