EgoEnv: Human-centric environment representations from egocentric video

要約

一人称ビデオは、永続的な環境のコンテキストでカメラ着用者の活動を強調します。
ただし、現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオ クリップの視覚的特徴を推論し、すぐに見えるものだけをキャプチャします。
人間中心の環境の理解を促進するために、カメラ着用者の (潜在的に見えない) 周辺環境を予測する表現を学習することにより、自己中心的なビデオと環境をリンクするアプローチを提示します。
環境が完全に観察可能なシミュレートされた 3D 環境でエージェントからのビデオを使用してそのようなモデルをトレーニングし、目に見えない環境から人間がキャプチャした現実世界のビデオでそれらをテストします。
人間中心の 2 つのビデオ タスクで、環境認識機能を備えた最先端のビデオ モデルが、従来のクリップ機能を備えた同等のモデルよりも一貫して優れていることを示します。
さらに、シミュレートされたビデオのみでトレーニングされているにもかかわらず、私たちのアプローチは、HouseTours と Ego4D からの実世界のビデオをうまく処理します。
プロジェクトページ:https://vision.cs.utexas.edu/projects/ego-env/

要約(オリジナル)

First-person video highlights a camera-wearer’s activities in the context of their persistent environment. However, current video understanding approaches reason over visual features from short video clips that are detached from the underlying physical space and capture only what is immediately visible. We present an approach that links egocentric video and the environment by learning representations that are predictive of the camera-wearer’s (potentially unseen) local surroundings to facilitate human-centric environment understanding. We train such models using videos from agents in simulated 3D environments where the environment is fully observable, and test them on human-captured real-world videos from unseen environments. On two human-centric video tasks, we show that state-of-the-art video models equipped with our environment-aware features consistently outperform their counterparts with traditional clip features. Moreover, despite being trained exclusively on simulated videos, our approach successfully handles real-world videos from HouseTours and Ego4D. Project page: https://vision.cs.utexas.edu/projects/ego-env/

arxiv情報

著者 Tushar Nagarajan,Santhosh Kumar Ramakrishnan,Ruta Desai,James Hillis,Kristen Grauman
発行日 2022-12-22 16:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク