Restore Anything Model via Efficient Degradation Adaptation

要約

モバイル デバイスの普及に伴い、劣化した画像を復元するための効率的なモデルの必要性がますます重要かつ影響力を増しています。
従来のアプローチでは通常、特定の劣化ごとに専用のモデルをトレーニングする必要があり、非効率性と冗長性が生じます。
最近のソリューションでは、視覚的なプロンプトを学習するための追加モジュールが導入され、モデル サイズが大幅に増加するか、膨大なデータセットでトレーニングされた大規模な言語モデルからのクロスモーダル転送が組み込まれて、システム アーキテクチャが複雑になります。
対照的に、RAM と呼ばれる私たちのアプローチは、さまざまな劣化にわたる固有の類似性を活用する統一されたパスを採用し、モデルをスケールアップしたり大規模なマルチモーダル モデルに依存したりすることなく、共同埋め込みメカニズムを通じて効率的かつ包括的な復元を可能にします。
具体的には、各入力の潜在空間を調べ、主要なコンポーネントを特定し、それらをゲート方式で再重み付けします。
この本質的な劣化の認識は、X 字型のフレームワークで状況に応じた注意とさらに組み合わされ、ローカルとグローバルの相互作用を強化します。
オールインワン復元設定での広範なベンチマークにより、RAM の SOTA パフォーマンスが確認され、モデルの複雑さがトレーニング可能なパラメーターで約 82%、FLOP で約 85% 削減されました。
私たちのコードとモデルは公開されます。

要約(オリジナル)

With the proliferation of mobile devices, the need for an efficient model to restore any degraded image has become increasingly significant and impactful. Traditional approaches typically involve training dedicated models for each specific degradation, resulting in inefficiency and redundancy. More recent solutions either introduce additional modules to learn visual prompts significantly increasing model size or incorporate cross-modal transfer from large language models trained on vast datasets, adding complexity to the system architecture. In contrast, our approach, termed RAM, takes a unified path that leverages inherent similarities across various degradations to enable both efficient and comprehensive restoration through a joint embedding mechanism without scaling up the model or relying on large multimodal models. Specifically, we examine the sub-latent space of each input, identifying key components and reweighting them in a gated manner. This intrinsic degradation awareness is further combined with contextualized attention in an X-shaped framework, enhancing local-global interactions. Extensive benchmarking in an all-in-one restoration setting confirms RAM’s SOTA performance, reducing model complexity by approximately 82% in trainable parameters and 85% in FLOPs. Our code and models will be publicly available.

arxiv情報

著者 Bin Ren,Eduard Zamfir,Zongwei Wu,Yawei Li,Yidi Li,Danda Pani Paudel,Radu Timofte,Ming-Hsuan Yang,Nicu Sebe
発行日 2024-12-18 16:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク