MOWA: Multiple-in-One Image Warping Model

要約

最近の画像ワーピング手法は既存のベンチマークで目覚ましい成功を収めましたが、依然として特定のタスクごとに個別のモデルをトレーニングする必要があり、さまざまなカメラ モデルやカスタマイズされた操作にうまく一般化できません。
実際に多様なタイプのワーピングに対処するために、この研究では Multiple-in-One 画像 WArping モデル (MOWA と呼ばれる) を提案します。
具体的には、領域レベルとピクセルレベルの両方で動き推定を解きほぐすことで、マルチタスク学習の困難を軽減します。
動的タスク認識画像ワーピングをさらに有効にするために、タスクの種類を予測する軽量のポイントベースの分類器を導入し、より適切な推定を行うために特徴マップを調整するためのプロンプトとして機能します。
私たちの知る限り、これは 1 つのモデルで複数の実用的なワーピング タスクを解決した最初の研究です。
広範な実験により、マルチインワン画像ワーピングの 6 つのタスクでトレーニングされた当社の MOWA が、ほとんどのタスクにおいて最先端のタスク固有モデルよりも優れたパフォーマンスを発揮することが実証されました。
さらに、MOWA は、クロスドメイン評価やゼロショット評価によって証明されているように、目に見えないシーンに一般化できる有望な可能性も示しています。
コードは公開されます。

要約(オリジナル)

While recent image warping approaches achieved remarkable success on existing benchmarks, they still require training separate models for each specific task and cannot generalize well to different camera models or customized manipulations. To address diverse types of warping in practice, we propose a Multiple-in-One image WArping model (named MOWA) in this work. Specifically, we mitigate the difficulty of multi-task learning by disentangling the motion estimation at both the region level and pixel level. To further enable dynamic task-aware image warping, we introduce a lightweight point-based classifier that predicts the task type, serving as prompts to modulate the feature maps for better estimation. To our knowledge, this is the first work that solves multiple practical warping tasks in one single model. Extensive experiments demonstrate that our MOWA, which is trained on six tasks for multiple-in-one image warping, outperforms state-of-the-art task-specific models across most tasks. Moreover, MOWA also exhibits promising potential to generalize into unseen scenes, as evidenced by cross-domain and zero-shot evaluations. The code will be made publicly available.

arxiv情報

著者 Kang Liao,Zongsheng Yue,Zhonghua Wu,Chen Change Loy
発行日 2024-04-16 16:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク