ProMotion: Prototypes As Motion Learners

要約

この作業では、基本的なモーション タスクをモデル化するために設計された統合プロトタイプ フレームワークである ProMotion を紹介します。
ProMotion は、現在のタスク固有のパラダイムとは一線を画す、さまざまな魅力的な属性を提供します。
私たちはプロトタイプ的な視点を採用し、異なるモーション学習アプローチを調和させる統一パラダイムを確立します。
この新しいパラダイムはアーキテクチャ設計を合理化し、多様な動作情報の同時同化を可能にします。
私たちは、特徴デノイザーとプロトタイプ学習器を含む二重のメカニズムを利用して、動きの複雑さを解読します。
このアプローチは、ピクセル単位の特徴マッチングにおけるあいまいさの落とし穴を効果的に回避し、モーション表現の堅牢性を大幅に強化します。
私たちは、異なる動作パターン間での高度な伝達可能性を実証します。
この固有の多用途性は、2D と 3D の両方の下流タスクの包括的なスペクトル全体にしっかりと反映されます。
実験結果は、ProMotion がさまざまなよく知られた特殊なアーキテクチャよりも優れたパフォーマンスを示し、Sintel および KITTI 深度データセットで 0.54 および 0.054 Abs Rel 誤差、Sintel フロー ベンチマークのクリーンおよび最終パスで 1.04 および 2.01 の平均エンドポイント誤差、および 4.30 F1-all を達成していることを示しています。
KITTI フロー ベンチマークでエラーが発生しました。
その有効性を考えると、私たちの研究がコンピューター ビジョンにおけるユニバーサル モデルのパラダイム シフトを促進できることを願っています。

要約(オリジナル)

In this work, we introduce ProMotion, a unified prototypical framework engineered to model fundamental motion tasks. ProMotion offers a range of compelling attributes that set it apart from current task-specific paradigms. We adopt a prototypical perspective, establishing a unified paradigm that harmonizes disparate motion learning approaches. This novel paradigm streamlines the architectural design, enabling the simultaneous assimilation of diverse motion information. We capitalize on a dual mechanism involving the feature denoiser and the prototypical learner to decipher the intricacies of motion. This approach effectively circumvents the pitfalls of ambiguity in pixel-wise feature matching, significantly bolstering the robustness of motion representation. We demonstrate a profound degree of transferability across distinct motion patterns. This inherent versatility reverberates robustly across a comprehensive spectrum of both 2D and 3D downstream tasks. Empirical results demonstrate that ProMotion outperforms various well-known specialized architectures, achieving 0.54 and 0.054 Abs Rel error on the Sintel and KITTI depth datasets, 1.04 and 2.01 average endpoint error on the clean and final pass of Sintel flow benchmark, and 4.30 F1-all error on the KITTI flow benchmark. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.

arxiv情報

著者 Yawen Lu,Dongfang Liu,Qifan Wang,Cheng Han,Yiming Cui,Zhiwen Cao,Xueling Zhang,Yingjie Victor Chen,Heng Fan
発行日 2024-06-07 15:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク