StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture

要約

スタイル転送は、コンテンツを保持しながらスタイル ソースの芸術的な表現を備えた新しい画像を生成することを目的としています。
既存の手法のほとんどはトランスフォーマーまたは拡散モデルに基づいていますが、二次計算の複雑さと長い推論時間という問題があります。
RWKV は、新たなディープ シーケンス モデルとして、NLP タスクにおけるロングコンテキスト シーケンス モデリングの計り知れない可能性を示しています。
この研究では、限られたメモリ使用量と線形時間計算量で高品質のスタイル転送を実現する、新しいフレームワーク StyleRWKV を紹介します。
具体的には、我々は、全体的な受容野を確立するために双方向の注意を組み込んだ反復WKV(Re-WKV)注意メカニズムを提案します。
さらに、学習可能なオフセットをコンボリューション カーネルのサンプリング グリッドに導入する変形可能シフティング (変形シフティング) レイヤーを開発します。これにより、トークンが対象領域から柔軟かつ適応的にシフトできるようになり、それによってローカル依存関係をキャプチャするモデルの能力が強化されます。
最後に、グローバルなコンテキスト依存関係を効果的に確立するスキップ スキャン (S-Scanning) 方法を提案します。
定性的および定量的評価を含む分析による広範な実験により、私たちのアプローチが様式化の品質、モデルの複雑さ、推論効率の点で最先端の方法よりも優れていることが実証されました。

要約(オリジナル)

Style transfer aims to generate a new image preserving the content but with the artistic representation of the style source. Most of the existing methods are based on Transformers or diffusion models, however, they suffer from quadratic computational complexity and high inference time. RWKV, as an emerging deep sequence models, has shown immense potential for long-context sequence modeling in NLP tasks. In this work, we present a novel framework StyleRWKV, to achieve high-quality style transfer with limited memory usage and linear time complexity. Specifically, we propose a Recurrent WKV (Re-WKV) attention mechanism, which incorporates bidirectional attention to establish a global receptive field. Additionally, we develop a Deformable Shifting (Deform-Shifting) layer that introduces learnable offsets to the sampling grid of the convolution kernel, allowing tokens to shift flexibly and adaptively from the region of interest, thereby enhancing the model’s ability to capture local dependencies. Finally, we propose a Skip Scanning (S-Scanning) method that effectively establishes global contextual dependencies. Extensive experiments with analysis including qualitative and quantitative evaluations demonstrate that our approach outperforms state-of-the-art methods in terms of stylization quality, model complexity, and inference efficiency.

arxiv情報

著者 Miaomiao Dai,Qianyu Zhou,Lizhuang Ma
発行日 2024-12-27 09:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク