Sharing Key Semantics in Transformer Makes Efficient Image Restoration

要約

古典的な低レベル視覚タスクである画像復元 (IR) は、グローバル情報を効果的にモデル化するディープ モデルを通じて大幅な進歩を遂げました。
注目すべきことに、ビジョン トランスフォーマー (ViT) の出現により、これらの進歩がさらに推進されました。
コンピューティングの際、ViT の基礎である自己注意メカニズムは、意味的に無関係なオブジェクトや領域からのものであっても、すべてのグローバルな手がかりを包含する傾向があります。
この包括性により、無関係な情報を処理する必要があり、効率が妨げられるため、特に入力解像度が高い場合に顕著な計算効率の低下が生じます。
さらに、IR の場合、劣化した画像の小さなセグメント、特に意味的に密接に配置されたセグメントが、正確な再構成に不可欠な重要な文脈上の手がかりに寄与するため、復元プロセスを支援する特に関連性の高い情報を提供することが一般的に注目されています。
これらの課題に対処するために、このホワイトペーパーでは、Transformer for IR (つまり SemanIR) を介して主要なセマンティクスを共有することで、IR のパフォーマンスを向上させることを提案します。
具体的には、SemanIR は最初に、劣化したパッチごとに重要な意味論的な接続を確立することにより、各トランスフォーマー ステージ内で疎であるが包括的なキー意味論的辞書を構築します。
その後、この辞書は、同じステージ内の後続のすべてのトランスフォーマー ブロックにわたって共有されます。
この戦略は、キー意味論的辞書に格納されている意味論的に関連するコンポーネントのみに焦点を当てることにより、各ブロック内のアテンション計算を最適化します。
その結果、アテンション計算は各ウィンドウ内で線形の計算複雑さを実現します。
6 つの IR タスクにわたる広範な実験により、提案された SemanIR の最先端のパフォーマンスが確認され、定量的および定性的に進歩が示されました。
視覚的な結果、コード、トレーニングされたモデルは、https://github.com/Amazingren/SemanIR で入手できます。

要約(オリジナル)

Image Restoration (IR), a classic low-level vision task, has witnessed significant advancements through deep models that effectively model global information. Notably, the emergence of Vision Transformers (ViTs) has further propelled these advancements. When computing, the self-attention mechanism, a cornerstone of ViTs, tends to encompass all global cues, even those from semantically unrelated objects or regions. This inclusivity introduces computational inefficiencies, particularly noticeable with high input resolution, as it requires processing irrelevant information, thereby impeding efficiency. Additionally, for IR, it is commonly noted that small segments of a degraded image, particularly those closely aligned semantically, provide particularly relevant information to aid in the restoration process, as they contribute essential contextual cues crucial for accurate reconstruction. To address these challenges, we propose boosting IR’s performance by sharing the key semantics via Transformer for IR (\ie, SemanIR) in this paper. Specifically, SemanIR initially constructs a sparse yet comprehensive key-semantic dictionary within each transformer stage by establishing essential semantic connections for every degraded patch. Subsequently, this dictionary is shared across all subsequent transformer blocks within the same stage. This strategy optimizes attention calculation within each block by focusing exclusively on semantically related components stored in the key-semantic dictionary. As a result, attention calculation achieves linear computational complexity within each window. Extensive experiments across 6 IR tasks confirm the proposed SemanIR’s state-of-the-art performance, quantitatively and qualitatively showcasing advancements. The visual results, code, and trained models are available at https://github.com/Amazingren/SemanIR.

arxiv情報

著者 Bin Ren,Yawei Li,Jingyun Liang,Rakesh Ranjan,Mengyuan Liu,Rita Cucchiara,Luc Van Gool,Ming-Hsuan Yang,Nicu Sebe
発行日 2024-12-18 13:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク