要約
3 つのモーションおよび 3D 知覚タスクの統一された定式化とモデルを提示します: オプティカル フロー、調整されたステレオ マッチング、ポーズ画像からの調整されていないステレオ深度推定。
特定のタスクごとに特化された以前のアーキテクチャとは異なり、3 つのタスクすべてを統一された密な対応マッチング問題として定式化します。これは、特徴の類似性を直接比較することによって単一のモデルで解決できます。
このような定式化には、トランスフォーマー、特にクロスアテンションメカニズムを使用して達成する識別可能な特徴表現が必要です。
クロスアテンションにより、クロスビューの相互作用を介して別の画像からの知識を統合できることを示します。これにより、抽出された機能の品質が大幅に向上します。
モデルのアーキテクチャとパラメーターがタスク間で共有されるため、統合モデルは当然、クロスタスク転送を可能にします。
困難な Sintel データセットで統合モデルを使用して RAFT よりも優れたパフォーマンスを発揮し、いくつかの追加のタスク固有の改良ステップを使用する最終モデルは、10 の一般的なフロー、ステレオ、および深度データセットでの最近の最先端の方法よりも優れているか、それと比較して優れています。
、モデル設計と推論速度の点でよりシンプルで効率的です。
要約(オリジナル)
We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
arxiv情報
| 著者 | Haofei Xu,Jing Zhang,Jianfei Cai,Hamid Rezatofighi,Fisher Yu,Dacheng Tao,Andreas Geiger |
| 発行日 | 2022-11-10 18:59:54+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google