RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration

要約

トランスモデルは最近、長距離ピクセル依存性をキャプチャする能力により、画像修復に大きな注目を集めています。
ただし、劣化とコンテキストが通常局所化されるため、長距離の注意は実際的に必要とせずに計算オーバーヘッドをもたらすことがよくあります。
さまざまな劣化データセットにわたる正規化された平均注意距離は、画像の復元には中距離の注意が十分であることを示しています。
この洞察に基づいて、画像の復元のための中間コンテキストをモデル化する新しいウィンドウベースの変圧器であるRoutewinformerを提案します。
RoutewInformerには、Route-Windows Attnetionモジュールが組み込まれています。これは、注意集計の地域的類似性に基づいて関連する近くのウィンドウを動的に選択し、受容フィールドをミッドレンジサイズに効率的に拡張します。
さらに、トレーニング中にマルチスケール構造の正則化を導入し、U字型ネットワークのサブスケールが構造情報に焦点を当てることを可能にしますが、元のスケールは一般化された画像構造の事前に基づいて分解パターンを学習します。
広範な実験は、Routewinformerがさまざまな画像修復タスクの9つのデータセットで最新の方法を上回ることを示しています。

要約(オリジナル)

Transformer models have recently garnered significant attention in image restoration due to their ability to capture long-range pixel dependencies. However, long-range attention often results in computational overhead without practical necessity, as degradation and context are typically localized. Normalized average attention distance across various degradation datasets shows that middle-range attention is enough for image restoration. Building on this insight, we propose RouteWinFormer, a novel window-based Transformer that models middle-range context for image restoration. RouteWinFormer incorporates Route-Windows Attnetion Module, which dynamically selects relevant nearby windows based on regional similarity for attention aggregation, extending the receptive field to a mid-range size efficiently. In addition, we introduce Multi-Scale Structure Regularization during training, enabling the sub-scale of the U-shaped network to focus on structural information, while the original-scale learns degradation patterns based on generalized image structure priors. Extensive experiments demonstrate that RouteWinFormer outperforms state-of-the-art methods across 9 datasets in various image restoration tasks.

arxiv情報

著者 Qifan Li,Tianyi Liang,Xingtao Wang,Xiaopeng Fan
発行日 2025-04-23 11:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク