要約
芸術的なスタイルの転送は、通常、スタイル イメージとコンテンツ イメージの 2 つのイメージ間で実行されます。
最近、CLIPStyler という名前のモデルは、スタイルの自然言語記述が参照スタイル イメージの必要性を置き換えることができることを示しました。
彼らは、テキスト フレーズと画像の類似性を計算できる CLIP モデルを利用して、これを実現しました。
この作業では、CLIPStyler を事前トレーニング済みの純粋にビジョンベースのスタイル転送モデルと組み合わせることで、CLIPStyler の推論時間を大幅に短縮する方法を示します。
このモデルを FastCLIPStyler と呼びます。
両方のモデルから定型化された画像の定性的な調査を行い、生成された画像の視覚的な美学の点でもモデルにメリットがあると主張します。
最後に、FastCLIPStyler を使用してこの研究をさらに拡張し、現在 CLIPStyler と FastCLIPStyler の両方が行っている、推論時に最適化を必要としない一般化されたテキストからスタイルへのモデルを作成する方法についても指摘します。
要約(オリジナル)
Artistic style transfer is usually performed between two images, a style image and a content image. Recently, a model named CLIPStyler demonstrated that a natural language description of style could replace the necessity of a reference style image. They achieved this by taking advantage of the CLIP model, which can compute the similarity between a text phrase and an image. In this work, we demonstrate how combining CLIPStyler with a pre-trained, purely vision-based style transfer model can significantly reduce the inference time of CLIPStyler. We call this model FastCLIPStyler. We do a qualitative exploration of the stylised images from both models and argue that our model also has merits in terms of the visual aesthetics of the generated images. Finally, we also point out how FastCLIPStyler can be used to further extend this line of research to create a generalised text-to-style model that does not require optimisation at inference time, which both CLIPStyler and FastCLIPStyler do currently.
arxiv情報
| 著者 | Ananda Padhmanabhan Suresh,Sanjana Jain,Pavit Noinongyao,Ankush Ganguly |
| 発行日 | 2022-10-07 11:16:36+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google