StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer

要約

元の画像のコンテンツの整合性を維持しながら、テキスト プロンプトを対応するビジュアル スタイルに変換する効率的な画像スタイル転送フレームワークである StyleMamba を紹介します。
既存のテキストガイドによるスタイル化では、数百回のトレーニング反復が必要であり、大量のコンピューティング リソースが必要です。
このプロセスを高速化するために、画像の特徴をターゲットのテキスト プロンプトに順番に合わせる、StyleMamba と呼ばれる、効率的なテキスト駆動型の画像スタイル転送のための条件付き状態空間モデルを提案します。
テキストと画像の間のローカルおよびグローバルなスタイルの一貫性を強化するために、スタイル化の方向を最適化するためのマスクされた 2 次の方向損失を提案し、トレーニング反復を 5 倍、推論時間を 3 倍大幅に削減します。
広範な実験と定性的評価により、既存のベースラインと比較して、私たちのメソッドの堅牢で優れた様式化パフォーマンスが確認されています。

要約(オリジナル)

We present StyleMamba, an efficient image style transfer framework that translates text prompts into corresponding visual styles while preserving the content integrity of the original images. Existing text-guided stylization requires hundreds of training iterations and takes a lot of computing resources. To speed up the process, we propose a conditional State Space Model for Efficient Text-driven Image Style Transfer, dubbed StyleMamba, that sequentially aligns the image features to the target text prompts. To enhance the local and global style consistency between text and image, we propose masked and second-order directional losses to optimize the stylization direction to significantly reduce the training iterations by 5 times and the inference time by 3 times. Extensive experiments and qualitative evaluation confirm the robust and superior stylization performance of our methods compared to the existing baselines.

arxiv情報

著者 Zijia Wang,Zhi-Song Liu
発行日 2024-05-08 12:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク