DiffuVolume: Diffusion Model for Volume based Stereo Matching

要約

ステレオ マッチングは、多くのコンピューター ビジョン タスクや運転ベースのアプリケーションにおいて重要な部分を占めています。
最近、コストボリュームベースの手法は、ペア画像の豊富な幾何学情報の恩恵を受けて大きな成功を収めています。
ただし、コスト ボリュームの冗長性もモデルのトレーニングを妨げ、パフォーマンスを制限します。
より正確なコストボリュームを構築するために、当社は先駆的に拡散モデルをステレオマッチングに適用しました。
DiffuVolume と呼ばれる私たちの方法では、拡散モデルをコスト ボリューム フィルターとして考慮し、コスト ボリュームから冗長な情報を繰り返し削除します。
2 つの主な設計により、私たちの方法は簡単ではなくなります。
まず、拡散モデルをステレオ マッチングにより適応させるために、画像にノイズを直接追加する従来の方法を避け、拡散モデルをタスク固有のモジュールに埋め込みます。
このようにして、従来の拡散ステレオ マッチング手法を 22% の EPE 向上と 240 倍の推論高速化で上回りました。
次に、DiffuVolume はボリュームベースのステレオ マッチング ネットワークに簡単に組み込むことができ、パフォーマンスは向上しますが、パラメーターはわずかに上昇します (わずか 2%)。
パフォーマンスの高いメソッドに DiffuVolume を追加することで、シーン フロー、KITTI2012、KITTI2015 ベンチマーク、およびゼロショット汎化設定において、公開されているすべてのメソッドよりも優れたパフォーマンスを発揮します。
提案されたモデルは、2023年7月15日以来、KITTI 2012リーダーボードで1位、KITTI 2015リーダーボードで2位にランクされていることは言及する価値があります。

要約(オリジナル)

Stereo matching is a significant part in many computer vision tasks and driving-based applications. Recently cost volume-based methods have achieved great success benefiting from the rich geometry information in paired images. However, the redundancy of cost volume also interferes with the model training and limits the performance. To construct a more precise cost volume, we pioneeringly apply the diffusion model to stereo matching. Our method, termed DiffuVolume, considers the diffusion model as a cost volume filter, which will recurrently remove the redundant information from the cost volume. Two main designs make our method not trivial. Firstly, to make the diffusion model more adaptive to stereo matching, we eschew the traditional manner of directly adding noise into the image but embed the diffusion model into a task-specific module. In this way, we outperform the traditional diffusion stereo matching method by 22% EPE improvement and 240 times inference acceleration. Secondly, DiffuVolume can be easily embedded into any volume-based stereo matching network with boost performance but slight parameters rise (only 2%). By adding the DiffuVolume into well-performed methods, we outperform all the published methods on Scene Flow, KITTI2012, KITTI2015 benchmarks and zero-shot generalization setting. It is worth mentioning that the proposed model ranks 1st on KITTI 2012 leader board, 2nd on KITTI 2015 leader board since 15, July 2023.

arxiv情報

著者 Dian Zheng,Xiao-Ming Wu,Zuhao Liu,Jingke Meng,Wei-shi Zheng
発行日 2023-08-30 12:19:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク