要約
【タイトル】ALADIN-NST:ニューラル・スタイル・トランスファーを用いた芸術的スタイルの自己教師付き・分解表現学習
【要約】
– 表現学習は、個々のドメインの著しい特徴をコンパクトで記述的な形式で発見し、ドメインに対する与えられたサンプルの一意な特徴を強く識別することを目的としている。
– 視覚的なスタイル表現の文献における既存の研究では、トレーニング時にスタイルとコンテンツを明示的に分離することを試みてきたが、これまで完全な分離は完全に達成されていない。
– 本論文の目的は、画像に描かれた意味的なコンテンツからより強く分離された視覚的芸術スタイルの表現を学習することである。
– ニューラルスタイルトランスファー(NST)を使用して、学習シグナルを測定し、状態を明示的に分解されたメトリックで最新の表現学習を実現する。
– スタイルとコンテンツの切り離しに強く取り組むことで、スタイル固有のメトリックで大幅な利益が得られ、意味情報を遥かに少なく符号化し、ダウンストリームの多モーダルアプリケーションにおいて最新の正確性を実現する。
要約(オリジナル)
Representation learning aims to discover individual salient features of a domain in a compact and descriptive form that strongly identifies the unique characteristics of a given sample respective to its domain. Existing works in visual style representation literature have tried to disentangle style from content during training explicitly. A complete separation between these has yet to be fully achieved. Our paper aims to learn a representation of visual artistic style more strongly disentangled from the semantic content depicted in an image. We use Neural Style Transfer (NST) to measure and drive the learning signal and achieve state-of-the-art representation learning on explicitly disentangled metrics. We show that strongly addressing the disentanglement of style and content leads to large gains in style-specific metrics, encoding far less semantic information and achieving state-of-the-art accuracy in downstream multimodal applications.
arxiv情報
著者 | Dan Ruta,Gemma Canet Tarres,Alex Black,Andrew Gilbert,John Collomosse |
発行日 | 2023-04-12 10:33:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI