Mamba-ST: State Space Model for Efficient Style Transfer

要約

スタイル転送の目的は、コンテンツ画像とスタイル ソースが与えられた場合、コンテンツを保持しながらスタイル ソースの芸術的表現を備えた新しい画像を生成することです。
最先端のアーキテクチャのほとんどは、大きな計算負荷を必要とするにもかかわらず、このタスクを実行するためにトランスフォーマーまたは拡散ベースのモデルを使用します。
特に、トランスフォーマーはメモリ占有面積が大きいセルフアテンション層とクロスアテンション層を使用しますが、拡散モデルには長い推論時間が必要です。
上記を克服するために、この論文ではスタイル転送を実行するための Mamba の新しい設計、Mamba-ST と呼ばれる創発状態空間モデル (SSM) を検討します。
これを行うために、Mamba の線形方程式を適用してクロスアテンション レイヤーの動作をシミュレートします。クロスアテンション レイヤーは、2 つの別々のエンベディングを 1 つの出力に結合することができますが、メモリ使用量と時間の複雑さを大幅に削減します。
Mamba の内部方程式を変更して、2 つの別々のデータ ストリームからの入力を受け入れ、結合できるようにしました。
私たちの知る限り、これは、クロスアテンションやカスタム正規化レイヤーなどの他のモジュールを必要とせずに、SSM の方程式をスタイル転送などのビジョン タスクに適応させる初めての試みです。
一連の広範な実験により、トランスフォーマーや拡散モデルと比較して、スタイル転送を実行する際の私たちの方法の優位性と効率が実証されています。
結果は、ArtFID と FID メトリクスの両方の点で品質が向上していることを示しています。
コードは https://github.com/FilippoBotti/MambaST で入手できます。

要約(オリジナル)

The goal of style transfer is, given a content image and a style source, generating a new image preserving the content but with the artistic representation of the style source. Most of the state-of-the-art architectures use transformers or diffusion-based models to perform this task, despite the heavy computational burden that they require. In particular, transformers use self- and cross-attention layers which have large memory footprint, while diffusion models require high inference time. To overcome the above, this paper explores a novel design of Mamba, an emergent State-Space Model (SSM), called Mamba-ST, to perform style transfer. To do so, we adapt Mamba linear equation to simulate the behavior of cross-attention layers, which are able to combine two separate embeddings into a single output, but drastically reducing memory usage and time complexity. We modified the Mamba’s inner equations so to accept inputs from, and combine, two separate data streams. To the best of our knowledge, this is the first attempt to adapt the equations of SSMs to a vision task like style transfer without requiring any other module like cross-attention or custom normalization layers. An extensive set of experiments demonstrates the superiority and efficiency of our method in performing style transfer compared to transformers and diffusion models. Results show improved quality in terms of both ArtFID and FID metrics. Code is available at https://github.com/FilippoBotti/MambaST.

arxiv情報

著者 Filippo Botti,Alex Ergasti,Leonardo Rossi,Tomaso Fontanini,Claudio Ferrari,Massimo Bertozzi,Andrea Prati
発行日 2024-09-16 15:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク