要約
ビジョン トランスフォーマーは数多くの画像復元 (IR) タスクで有望ですが、複数の IR タスク向けにモデルを効率的に一般化してスケールアップするという課題が残っています。
一般化されたトランスベースの IR 法の効率とモデル能力のバランスをとるために、ボトムアップ方式でピクセル間で情報を段階的に伝播する、Hi-IR と呼ばれる画像復元のための階層型情報フロー メカニズムを提案します。
Hi-IR は、劣化した画像を 3 つのレベルで表す階層情報ツリーを構築します。
各レベルにはさまざまな種類の情報がカプセル化されており、より高いレベルではより広範なオブジェクトと概念が網羅され、より低いレベルでは局所的な詳細に焦点が当てられます。
さらに、階層ツリー アーキテクチャにより、長期にわたる自己注意が排除され、計算効率とメモリ使用率が向上し、効果的なモデル スケーリングの準備が整います。
それに基づいて、メソッドの機能を向上させるためのモデルのスケーリングを検討します。これは、大規模なトレーニング設定で IR にプラスの影響を与えることが期待されます。
広範な実験結果は、Hi-IR が 7 つの一般的な画像復元タスクで最先端のパフォーマンスを達成することを示し、その有効性と汎用性を裏付けています。
要約(オリジナル)
While vision transformers show promise in numerous image restoration (IR) tasks, the challenge remains in efficiently generalizing and scaling up a model for multiple IR tasks. To strike a balance between efficiency and model capacity for a generalized transformer-based IR method, we propose a hierarchical information flow mechanism for image restoration, dubbed Hi-IR, which progressively propagates information among pixels in a bottom-up manner. Hi-IR constructs a hierarchical information tree representing the degraded image across three levels. Each level encapsulates different types of information, with higher levels encompassing broader objects and concepts and lower levels focusing on local details. Moreover, the hierarchical tree architecture removes long-range self-attention, improves the computational efficiency and memory utilization, thus preparing it for effective model scaling. Based on that, we explore model scaling to improve our method’s capabilities, which is expected to positively impact IR in large-scale training settings. Extensive experimental results show that Hi-IR achieves state-of-the-art performance in seven common image restoration tasks, affirming its effectiveness and generalizability.
arxiv情報
著者 | Yawei Li,Bin Ren,Jingyun Liang,Rakesh Ranjan,Mengyuan Liu,Nicu Sebe,Ming-Hsuan Yang,Luca Benini |
発行日 | 2024-11-27 18:30:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google