要約
大規模なビジョン言語モデル(LVLMS)は、ビデオ理解における印象的な能力を実証していますが、日常生活の活動(ADL)の採用は、きめ細かい相互作用と空間的関係を捉えることができないことによって制限されたままです。
これに対処するために、エゴセントリックビューの補完的な性質を活用して、LVLMのエキソセントリックADLビデオの理解を高めることを目指しています。
その結果、ego-augmentedexedexpexplessationsを学習するために、ego2exoの知識蒸留を提案します。
効果的ですが、このアプローチにはペアのエゴエキソービデオが必要であり、大規模に収集することは非現実的です。
これに対処するために、スケルトン誘導合成エゴ生成(SK-EGO)を提案します。これは、人間のスケルトンの動きを活用して、外心的なビデオから合成エゴビューを生成します。
合成データで訓練されたLVLMSの自我表現を強化するために、ドメインに依存しないブートストラップされたeGo2Exo戦略を開発し、実際のエゴエゾペアから合成エゴエキソペアに知識を効果的に転送し、ドメインの誤整理を緩和します。
私たちは、エゴの高等豊富なLVLMのEXO表現が、6つのADLベンチマークで包括的な評価を通じて実証されたエゴパースのキューを抽出することを成功裏に学習し、提案されているエゴインエキシートの認識MCQベンチマークを特異的に設計するために特異的に設計されたエクソセントリックなビデオからの評価を評価することで実証されていることがわかります。
コード、モデル、およびデータは、https://github.com/dominickrei/egoexo4adlでオープンソーリングされます。
要約(オリジナル)
Large Vision Language Models (LVLMs) have demonstrated impressive capabilities in video understanding, yet their adoption for Activities of Daily Living (ADL) remains limited by their inability to capture fine-grained interactions and spatial relationships. To address this, we aim to leverage the complementary nature of egocentric views to enhance LVLM’s understanding of exocentric ADL videos. Consequently, we propose ego2exo knowledge distillation to learn ego-augmented exp representations. While effective, this approach requires paired ego-exo videos, which are impractical to collect at scale. To address this, we propose Skeleton-guided Synthetic Ego Generation (SK-EGO), which leverages human skeleton motion to generate synthetic ego views from exocentric videos. To enhance the ego representation of LVLMs trained on synthetic data, we develop a domain-agnostic bootstrapped ego2exo strategy that effectively transfers knowledge from real ego-exo pairs to synthetic ego-exo pairs, while mitigating domain misalignment. We find that the exo representations of our ego-augmented LVLMs successfully learn to extract ego-perspective cues, demonstrated through comprehensive evaluation on six ADL benchmarks and our proposed Ego-in-Exo PerceptionMCQ benchmark designed specifically to assess egocentric understanding from exocentric videos. Code, models, and data will be open-sourced at https://github.com/dominickrei/EgoExo4ADL.
arxiv情報
著者 | Dominick Reilly,Manish Kumar Govind,Le Xue,Srijan Das |
発行日 | 2025-03-25 17:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google