Estimating more camera poses for ego-centric videos is essential for VQ3D

要約

ビジュアル クエリの 3D ローカリゼーション (VQ3D) は、Ego4D エピソード メモリ ベンチマークのタスクです。
自己中心的なビデオが与えられた場合、目標は「オブジェクト X を最後に見た場所はどこですか?」という形式のクエリに回答することです。クエリ オブジェクト X は静止画像として指定され、回答はオブジェクト X を指す 3D 変位ベクトルである必要があります。
しかし、現在の技術は単純な方法を使用してビデオ フレームのカメラ ポーズを推定するため、ポーズ付きクエリ (QwP) の比率が低くなり、全体的な成功率が低くなります。
私たちは、挑戦的な自己中心的なビデオカメラのポーズ推定問題のための新しいパイプラインを設計します。
さらに、現在の VQ3D フレームワークを再検討し、パフォーマンスと効率の面で最適化します。
その結果、VQ3D リーダーボードで 25.8% というトップ 1 全体の成功率が得られました。これは、ベースラインで報告された 8.7% の 2 倍です。

要約(オリジナル)

Visual queries 3D localization (VQ3D) is a task in the Ego4D Episodic Memory Benchmark. Given an egocentric video, the goal is to answer queries of the form ‘Where did I last see object X?’, where the query object X is specified as a static image, and the answer should be a 3D displacement vector pointing to object X. However, current techniques use naive ways to estimate the camera poses of video frames, resulting in a low query with pose (QwP) ratio, thus a poor overall success rate. We design a new pipeline for the challenging egocentric video camera pose estimation problem in our work. Moreover, we revisit the current VQ3D framework and optimize it in terms of performance and efficiency. As a result, we get the top-1 overall success rate of 25.8% on VQ3D leaderboard, which is two times better than the 8.7% reported by the baseline.

arxiv情報

著者 Jinjie Mai,Chen Zhao,Abdullah Hamdi,Silvio Giancola,Bernard Ghanem
発行日 2022-11-18 15:16:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク