要約
ウェアラブルデバイスの普及に伴い、コンテキストAIの開発には自己中心的な動作の学習が不可欠となっています。
この研究では、自己中心的なビデオやモーション センサーなどのマルチモーダル入力からの自己中心的な動きを追跡して理解する多用途フレームワークである EgoLM を紹介します。
EgoLM は、単一モダリティ条件下では不適切なエゴモーションの追跡と理解の曖昧さを排除するために豊富なコンテキストを活用します。
多用途かつマルチモーダルなフレームワークを促進するために、私たちの重要な洞察は、大規模言語モデル (LLM) を使用して自己中心的な動きと自然言語の共同分布をモデル化することです。
マルチモーダルセンサー入力はエンコードされて言語モデルの共同潜在空間に投影され、それぞれエゴモーションの追跡または理解のためのモーション生成またはテキスト生成を促すために使用されます。
大規模なマルチモーダル人間動作データセットに関する広範な実験により、普遍的な自己中心学習のためのジェネラリスト モデルとしての EgoLM の有効性が検証されています。
要約(オリジナル)
As the prevalence of wearable devices, learning egocentric motions becomes essential to develop contextual AI. In this work, we present EgoLM, a versatile framework that tracks and understands egocentric motions from multi-modal inputs, e.g., egocentric videos and motion sensors. EgoLM exploits rich contexts for the disambiguation of egomotion tracking and understanding, which are ill-posed under single modality conditions. To facilitate the versatile and multi-modal framework, our key insight is to model the joint distribution of egocentric motions and natural languages using large language models (LLM). Multi-modal sensor inputs are encoded and projected to the joint latent space of language models, and used to prompt motion generation or text generation for egomotion tracking or understanding, respectively. Extensive experiments on large-scale multi-modal human motion dataset validate the effectiveness of EgoLM as a generalist model for universal egocentric learning.
arxiv情報
| 著者 | Fangzhou Hong,Vladimir Guzov,Hyo Jin Kim,Yuting Ye,Richard Newcombe,Ziwei Liu,Lingni Ma | 
| 発行日 | 2024-09-26 17:59:31+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
