要約
ビデオシーケンスの連続するフレーム間の視差の類似性が高いため、視差が変化する領域は計算可能な残差マップとして定義されます。
これに基づいて、ビデオステレオマッチングのための柔軟な再帰構造を備えた残差推定に基づくネットワークであるRecSMを提案します。
RecSM ネットワークは、マルチスケール残差推定モジュール (MREM) を使用してステレオ マッチングを高速化します。MREM は、時間コンテキストを基準として使用し、現在フレームと前のフレーム間の残差値のみを計算することで、現在のフレームの視差を迅速に計算します。
推定された視差の誤差をさらに削減するために、視差最適化モジュール (DOM) と一時的アテンション モジュール (TAM) を使用して各モジュール間の制約を強制し、MREM とともに柔軟なスタッカブル コンピューティング構造 (SCS) を形成します。
実際のシナリオに基づいて、さまざまな数の SCS を設計します。
実験結果では、スタック数が 3 の場合、RecSM は ACVNet と比較して 4 倍の速度向上を達成し、1 つの NVIDIA RTX 2080TI GPU に基づいて 0.054 秒で実行され、精度の低下はわずか 0.7% であることが実証されています。
コードは https://github.com/Y0uchenZ/RecSM で入手できます。
要約(オリジナル)
Due to the high similarity of disparity between consecutive frames in video sequences, the area where disparity changes is defined as the residual map, which can be calculated. Based on this, we propose RecSM, a network based on residual estimation with a flexible recursive structure for video stereo matching. The RecSM network accelerates stereo matching using a Multi-scale Residual Estimation Module (MREM), which employs the temporal context as a reference and rapidly calculates the disparity for the current frame by computing only the residual values between the current and previous frames. To further reduce the error of estimated disparities, we use the Disparity Optimization Module (DOM) and Temporal Attention Module (TAM) to enforce constraints between each module, and together with MREM, form a flexible Stackable Computation Structure (SCS), which allows for the design of different numbers of SCS based on practical scenarios. Experimental results demonstrate that with a stack count of 3, RecSM achieves a 4x speed improvement compared to ACVNet, running at 0.054 seconds based on one NVIDIA RTX 2080TI GPU, with an accuracy decrease of only 0.7%. Code is available at https://github.com/Y0uchenZ/RecSM.
arxiv情報
| 著者 | Youchen Zhao,Guorong Luo,Hua Zhong,Haixiong Li |
| 発行日 | 2024-06-05 14:49:14+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google