Soulstyler: Using Large Language Model to Guide Image Style Transfer for Target Object

要約

画像スタイルの転送は、コンピュータ グラフィックスとコンピュータ ビジョンの両方において重要な位置を占めます。
ただし、現在のほとんどの方法では、様式化された画像への参照が必要であり、特定のオブジェクトを個別に様式化することはできません。
この制限を克服するために、私たちは「Soulstyler」フレームワークを提案します。これにより、ユーザーは簡単なテキスト説明を通じて画像内の特定のオブジェクトの様式化をガイドできるようになります。
テキストを解析し、様式化の目標と特定のスタイルを特定するための大規模な言語モデルを導入します。
CLIP ベースのセマンティックビジュアル埋め込みエンコーダーと組み合わせることで、モデルはテキストと画像のコンテンツを理解して照合します。
また、新しいローカライズされたテキストと画像のブロック マッチング損失を導入します。これにより、指定されたターゲット オブジェクトに対してのみスタイル転送が実行され、非ターゲット領域は元のスタイルが維持されます。
実験結果は、私たちのモデルが背景領域のスタイルに影響を与えることなく、テキストの説明に従ってターゲット オブジェクト上でスタイル転送を正確に実行できることを示しています。
私たちのコードは https://github.com/yisuanwang/Soulstyler で入手できます。

要約(オリジナル)

Image style transfer occupies an important place in both computer graphics and computer vision. However, most current methods require reference to stylized images and cannot individually stylize specific objects. To overcome this limitation, we propose the ‘Soulstyler’ framework, which allows users to guide the stylization of specific objects in an image through simple textual descriptions. We introduce a large language model to parse the text and identify stylization goals and specific styles. Combined with a CLIP-based semantic visual embedding encoder, the model understands and matches text and image content. We also introduce a novel localized text-image block matching loss that ensures that style transfer is performed only on specified target objects, while non-target regions remain in their original style. Experimental results demonstrate that our model is able to accurately perform style transfer on target objects according to textual descriptions without affecting the style of background regions. Our code will be available at https://github.com/yisuanwang/Soulstyler.

arxiv情報

著者 Junhao Chen,Peng Rong,Jingbo Sun,Chao Li,Xiang Li,Hongwu Lv
発行日 2023-11-22 18:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク