EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries

要約

最近のビデオと 3D の理解の進歩に伴い、両方の概念を融合した新しい 4D 時空間手法が登場しました。
この方向に向けて、Ego4D Episodic Memory Benchmark は、3D ローカリゼーションを使用したビジュアル クエリ (VQ3D) のタスクを提案しました。
クエリ オブジェクトを描写する自己中心的なビデオ クリップと画像クロップが与えられた場合、目標は、クエリ フレームのカメラ ポーズに対するそのクエリ オブジェクトの中心の 3D 位置を特定することです。
現在の手法は、兄弟タスクである Visual Queries with 2D Localization (VQ2D) の 2D ローカリゼーション結果を 3D 予測に投影解除することで、VQ3D の問題に取り組んでいます。
それでも、以前の VQ3D 手法によるカメラの再位置決めによって引き起こされるカメラ ポーズの数が少ないことが、全体的な成功率を妨げていることを指摘します。
この研究では、3D マルチビュー ジオメトリと自己中心的なビデオからの 2D オブジェクトの取得をより適切に絡み合わせるパイプライン (EgoLoc と名付けます) を形式化します。
私たちのアプローチには、2D 検出の信頼性を活用して、より堅牢なカメラ ポーズを推定し、マルチビュー 3D 変位を集約することが含まれます。これにより、オブジェクト クエリの成功率が向上し、VQ3D ベースライン パフォーマンスの大幅な向上につながります。
具体的には、私たちのアプローチは最大 87.12% の全体的な成功率を達成し、VQ3D タスクにおける新たな最先端の結果を打ち立てています。
VQ3D のタスクと既存のソリューションの包括的な実証分析を提供し、VQ3D に残された課題を浮き彫りにします。
コードは https://github.com/Wayne-Mai/EgoLoc で入手できます。

要約(オリジナル)

With the recent advances in video and 3D understanding, novel 4D spatio-temporal methods fusing both concepts have emerged. Towards this direction, the Ego4D Episodic Memory Benchmark proposed a task for Visual Queries with 3D Localization (VQ3D). Given an egocentric video clip and an image crop depicting a query object, the goal is to localize the 3D position of the center of that query object with respect to the camera pose of a query frame. Current methods tackle the problem of VQ3D by unprojecting the 2D localization results of the sibling task Visual Queries with 2D Localization (VQ2D) into 3D predictions. Yet, we point out that the low number of camera poses caused by camera re-localization from previous VQ3D methods severally hinders their overall success rate. In this work, we formalize a pipeline (we dub EgoLoc) that better entangles 3D multiview geometry with 2D object retrieval from egocentric videos. Our approach involves estimating more robust camera poses and aggregating multi-view 3D displacements by leveraging the 2D detection confidence, which enhances the success rate of object queries and leads to a significant improvement in the VQ3D baseline performance. Specifically, our approach achieves an overall success rate of up to 87.12%, which sets a new state-of-the-art result in the VQ3D task. We provide a comprehensive empirical analysis of the VQ3D task and existing solutions, and highlight the remaining challenges in VQ3D. The code is available at https://github.com/Wayne-Mai/EgoLoc.

arxiv情報

著者 Jinjie Mai,Abdullah Hamdi,Silvio Giancola,Chen Zhao,Bernard Ghanem
発行日 2023-08-28 12:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク