EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

要約

エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に進歩しています。
人間は完全に3Dの世界と相互作用し、テキストベースの理解を超えて広がる空間的認識を開発します。
ただし、ほとんどの以前の作品は、1Dテキストや、本質的に3Dの理解を欠いている境界ボックスなどの2Dビジュアルキューから学習しています。
このギャップを埋めるために、大規模な3Dに認識されたビデオ事前トレーニングとビデオテキストの対照学習を通じて共同で訓練されたエゴセントリックの深さとテキスト認識モデルであるEgoDTMを紹介します。
EGODTMには、深度推定モデルによって生成された擬似深度マップから3D認識を効率的に学習するために、軽量の3D対応デコーダーが組み込まれています。
3D認識のビデオ事前化をさらに容易にするために、いくつかの基礎モデルを組織することにより、ハンドオブジェクトの視覚的な手がかりで元の短いキャプションを豊かにします。
広範な実験は、多様なダウンストリームタスクにわたるEgoDTMの優れたパフォーマンスを示しており、その優れた3Dに認識された視覚的理解を強調しています。
コードはhttps://github.com/xuboshen/egodtmでリリースされます。

要約(オリジナル)

Egocentric video-language pretraining has significantly advanced video representation learning. Humans perceive and interact with a fully 3D world, developing spatial awareness that extends beyond text-based understanding. However, most previous works learn from 1D text or 2D visual cues, such as bounding boxes, which inherently lack 3D understanding. To bridge this gap, we introduce EgoDTM, an Egocentric Depth- and Text-aware Model, jointly trained through large-scale 3D-aware video pretraining and video-text contrastive learning. EgoDTM incorporates a lightweight 3D-aware decoder to efficiently learn 3D-awareness from pseudo depth maps generated by depth estimation models. To further facilitate 3D-aware video pretraining, we enrich the original brief captions with hand-object visual cues by organically combining several foundation models. Extensive experiments demonstrate EgoDTM’s superior performance across diverse downstream tasks, highlighting its superior 3D-aware visual understanding. Our code will be released at https://github.com/xuboshen/EgoDTM.

arxiv情報

著者 Boshen Xu,Yuting Mei,Xinbi Liu,Sipeng Zheng,Qin Jin
発行日 2025-03-19 17:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク