FastCLIPstyler: Optimisation-free Text-based Image Style Transfer Using Style Representations

要約

芸術的なスタイルの転送は、通常、スタイル イメージとコンテンツ イメージの 2 つのイメージ間で実行されます。
最近、CLIPstyler という名前のモデルは、スタイルの自然言語記述が参照スタイル イメージの必要性を置き換えることができることを示しました。
ただし、彼らの手法では、クエリごとに実行時に長時間の最適化手順が必要であり、ネットワークを介した複数の前方および後方パスと、高価な損失計算が必要です。
この作業では、任意のテキスト入力に対して単一のフォワード パスで画像をスタイル設定できる一般化されたテキストベースのスタイル転送ネットワークを作成し、画像のスタイル設定プロセスを CLIPstyler よりも約 1000 倍効率的にします。
また、CLIPstylerから生成された画像の一部に不要なアーティファクトが漏れて使用できなくなるという問題を、私たちの技術がどのように排除するかを示します。
また、生成された画像の品質を向上させるためのオプションの微調整ステップも提案します。
フレームワークのパフォーマンスを定性的に評価し、最先端の技術に匹敵する品質の画像を生成できることを示します。

要約(オリジナル)

Artistic style transfer is usually performed between two images, a style image and a content image. Recently, a model named CLIPstyler demonstrated that a natural language description of style could replace the necessity of a reference style image. However, their technique requires a lengthy optimisation procedure at run-time for each query, requiring multiple forward and backward passes through a network as well as expensive loss computations. In this work, we create a generalised text-based style transfer network capable of stylising images in a single forward pass for an arbitrary text input making the image stylisation process around 1000 times more efficient than CLIPstyler. We also demonstrate how our technique eliminates the issue of leakage of unwanted artefacts into some of the generated images from CLIPstyler, making them unusable. We also propose an optional fine-tuning step to improve the quality of the generated image. We qualitatively evaluate the performance of our framework and show that it can generate images of comparable quality to state-of-the-art techniques.

arxiv情報

著者 Ananda Padhmanabhan Suresh,Sanjana Jain,Pavit Noinongyao,Ankush Ganguly
発行日 2022-11-14 12:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク