TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network

要約

我々は、TemporalStereoを発表する。TemporalStereoは、非常に効率的で、マッチング精度を向上させるために、過去の形状とコンテキスト情報を効果的に利用することができる、粗から細へのステレオマッチングネットワークである。我々のネットワークは、疎なコストボリュームを利用し、単一のステレオペアが与えられた場合に有効であることを証明する。しかし、ステレオシーケンスにまたがる時空間情報を利用する独特の能力により、TemporalStereoはオクルージョンや反射領域などの問題を軽減し、後者の場合にも高い効率を享受することができる。特筆すべきは、我々のモデル(ステレオビデオで一度学習済み)は、シングルペアとテンポラルモードの両方でシームレスに実行できることである。実験によれば、カメラの動きに依存する我々のネットワークは、ビデオ上で実行した場合、動的なオブジェクトに対してもロバストである。合成データセット(SceneFlow、TartanAir)と実データセット(KITTI 2012、KITTI 2015)での広範な実験を通じて、TemporalStereoを検証する。我々のモデルはこれらのデータセットのいずれにおいても最先端の性能を達成する。コードは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)

要約(オリジナル)

We present TemporalStereo, a coarse-to-fine stereo matching network that is highly efficient, and able to effectively exploit the past geometry and context information to boost matching accuracy. Our network leverages sparse cost volume and proves to be effective when a single stereo pair is given. However, its peculiar ability to use spatio-temporal information across stereo sequences allows TemporalStereo to alleviate problems such as occlusions and reflective regions while enjoying high efficiency also in this latter case. Notably, our model — trained once with stereo videos — can run in both single-pair and temporal modes seamlessly. Experiments show that our network relying on camera motion is robust even to dynamic objects when running on videos. We validate TemporalStereo through extensive experiments on synthetic (SceneFlow, TartanAir) and real (KITTI 2012, KITTI 2015) datasets. Our model achieves state-of-the-art performance on any of these datasets. Code is available at \url{https://github.com/youmi-zym/TemporalStereo.git}.

arxiv情報

著者 Youmin Zhang,Matteo Poggi,Stefano Mattoccia
発行日 2023-08-03 12:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク