Instance-aware multi-object self-supervision for monocular depth prediction

要約

本論文では、6自由度のカメラ運動だけでなく、6自由度の移動物体インスタンスも扱うエンドツーエンドの光量損失で学習する自己教師付き単眼画像から深度への予測フレームワークを提案する。自己教師化は、深度とオブジェクトインスタンスを含むシーンモーションを用いてビデオシーケンス間で画像をワープすることにより行われる。提案手法の新規性の一つは、時間をまたいで移動するオブジェクトをマッチングさせ、それらの相互作用とダイナミクスをモデル化する変換ネットワークのマルチヘッド注意を用いることである。これにより、各オブジェクトインスタンスに対して正確でロバストな姿勢推定が可能となる。ほとんどの画像から深度への予測フレームワークは、硬いシーンを仮定しており、動的なオブジェクトに関してその性能を大きく低下させます。SOTAの論文でも、動的なオブジェクトを考慮したものは数少ない。提案手法は、標準的なベンチマークにおいて、これらの手法を上回る性能を示すとともに、動的な動きがこれらのベンチマークに与える影響について明らかにする。さらに、提案する画像から深度への予測フレームワークは、SOTAの動画から深度への予測フレームワークと競争力があることも示される。

要約(オリジナル)

This paper proposes a self-supervised monocular image-to-depth prediction framework that is trained with an end-to-end photometric loss that handles not only 6-DOF camera motion but also 6-DOF moving object instances. Self-supervision is performed by warping the images across a video sequence using depth and scene motion including object instances. One novelty of the proposed method is the use of the multi-head attention of the transformer network that matches moving objects across time and models their interaction and dynamics. This enables accurate and robust pose estimation for each object instance. Most image-to-depth predication frameworks make the assumption of rigid scenes, which largely degrades their performance with respect to dynamic objects. Only a few SOTA papers have accounted for dynamic objects. The proposed method is shown to outperform these methods on standard benchmarks and the impact of the dynamic motion on these benchmarks is exposed. Furthermore, the proposed image-to-depth prediction framework is also shown to be competitive with SOTA video-to-depth prediction frameworks.

arxiv情報

著者 Houssem Boulahbal,Adrian Voicila,Andrew Comport
発行日 2022-08-09 06:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク