要約
我々は、オプティカル フロー、修正されたステレオ マッチング、ポーズ画像からの未修正のステレオ深度推定という 3 つの動きと 3D 認識タスクのための統一された定式化とモデルを提示します。
特定のタスクごとに特化したこれまでのアーキテクチャとは異なり、3 つのタスクすべてを統合された密な対応マッチング問題として定式化します。この問題は、特徴の類似性を直接比較することで単一のモデルで解決できます。
このような定式化には、識別的な特徴表現が必要です。これは、Transformer、特にクロスアテンション メカニズムを使用して実現します。
クロスアテンションにより、クロスビューインタラクションを介して別の画像からの知識を統合できるようになり、抽出された特徴の品質が大幅に向上することを実証します。
私たちの統合モデルでは、モデルのアーキテクチャとパラメータがタスク間で共有されるため、当然、クロスタスク転送が可能になります。
当社は、困難な Sintel データセットに対する統合モデルで RAFT のパフォーマンスを上回り、タスク固有の改良ステップをいくつか追加した最終モデルは、10 の一般的なフロー、ステレオ、および深さのデータセットに対する最近の最先端の手法を上回るパフォーマンスまたは同等のパフォーマンスを示しています。
一方で、モデル設計と推論速度の点ではよりシンプルかつ効率的です。
要約(オリジナル)
We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
arxiv情報
著者 | Haofei Xu,Jing Zhang,Jianfei Cai,Hamid Rezatofighi,Fisher Yu,Dacheng Tao,Andreas Geiger |
発行日 | 2023-07-26 15:42:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google