SplatFlow: Learning Multi-frame Optical Flow via Splatting

要約

オクルージョンの問題は、オプティカル フロー推定 (OFE) において依然として重要な課題です。
深層学習によってもたらされた最近の大幅な進歩にもかかわらず、既存の深層学習 OFE 手法のほとんどは依然としてオクルージョンの処理に苦労しています。
特に、2 つのフレームに基づくものは、オクルージョンされた領域に視覚的な対応がないため、オクルージョンを正しく処理できません。
ただし、マルチフレーム設定にはまだ期待があり、OFE のオクルージョンの問題を軽減できる可能性があります。
残念ながら、マルチフレーム OFE (MOFE) はまだ十分に研究されておらず、これに関する研究は限られており、主にピラミッド バックボーン用に特別に設計されているか、時間のかかる逆方向フロー計算や、
微分不可能な順ワーピング変換。
この研究では、これらの欠点に対処するために、SplatFlow という名前の効率的な MOFE フレームワークを提案します。
SplatFlow は、微分可能なスプラッティング変換を導入して前のフレームのモーション特徴を整列させ、整列したモーション特徴を現在のフレームの推定に入力する Final-to-All 埋め込みメソッドを設計して、既存の 2 フレームのバックボーンを再構築します。
提案された SplatFlow は、オクルージョンを適切に処理できるため、効率的でありながらより正確です。
広範な実験評価により、SplatFlow が KITTI2015 および Sintel ベンチマークで公開されているすべてのメソッドよりも大幅に優れていることが示されています。
特に Sintel ベンチマークでは、SplatFlow は 1.12 (クリーン パス) と 2.07 (最終パス) のエラーを達成し、以前に提出された最高の結果と比較して、それぞれ 19.4% と 16.2% という驚くべき大幅なエラー削減を実現しました。
SplatFlow のコードは https://github.com/wwsource/SplatFlow で入手できます。

要約(オリジナル)

The occlusion problem remains a crucial challenge in optical flow estimation (OFE). Despite the recent significant progress brought about by deep learning, most existing deep learning OFE methods still struggle to handle occlusions; in particular, those based on two frames cannot correctly handle occlusions because occluded regions have no visual correspondences. However, there is still hope in multi-frame settings, which can potentially mitigate the occlusion issue in OFE. Unfortunately, multi-frame OFE (MOFE) remains underexplored, and the limited studies on it are mainly specially designed for pyramid backbones or else obtain the aligned previous frame’s features, such as correlation volume and optical flow, through time-consuming backward flow calculation or non-differentiable forward warping transformation. This study proposes an efficient MOFE framework named SplatFlow to address these shortcomings. SplatFlow introduces the differentiable splatting transformation to align the previous frame’s motion feature and designs a Final-to-All embedding method to input the aligned motion feature into the current frame’s estimation, thus remodeling the existing two-frame backbones. The proposed SplatFlow is efficient yet more accurate, as it can handle occlusions properly. Extensive experimental evaluations show that SplatFlow substantially outperforms all published methods on the KITTI2015 and Sintel benchmarks. Especially on the Sintel benchmark, SplatFlow achieves errors of 1.12 (clean pass) and 2.07 (final pass), with surprisingly significant 19.4% and 16.2% error reductions, respectively, from the previous best results submitted. The code for SplatFlow is available at https://github.com/wwsource/SplatFlow.

arxiv情報

著者 Bo Wang,Yifan Zhang,Jian Li,Yang Yu,Zhenping Sun,Li Liu,Dewen Hu
発行日 2024-02-26 07:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク