要約
この論文では、生成コンテンツ エンリッチメント (GCE) と呼ばれる新しい人工知能生成タスクを調査します。
与えられたテキスト記述を視覚的に現実のコンテンツを生成するための限られたセマンティクスで暗黙的に強化する従来の人工知能コンテンツ生成タスクとは異なり、私たちが提案する GCE は、強化されたコンテンツが視覚的に現実である視覚領域とテキスト領域の両方で明示的にコンテンツ強化を実行するよう努めています。
構造的に合理的であり、意味的に豊富です。
GCE の解決に向けて、エンリッチメント中にセマンティクスとセマンティクス間の関係を明示的に調査する深いエンドツーエンドの方法を提案します。
具体的には、まず入力記述をセマンティック グラフとしてモデル化します。ここで、各ノードはオブジェクトを表し、各エッジはオブジェクト間の関係に対応します。
次に、入力シーンの記述に加えてグラフ畳み込みネットワークを採用し、強化されるオブジェクトと入力オブジェクトとの関係を予測します。
最後に、強化された記述が画像合成モデルに入力されて、ビジュアル コンテンツの生成が実行されます。
Visual Genome データセットに対して行われた実験では、有望で視覚的に納得のいく結果が得られました。
要約(オリジナル)
In this paper, we investigate a novel artificial intelligence generation task, termed as generated contents enrichment (GCE). Different from conventional artificial intelligence contents generation task that enriches the given textual description implicitly with limited semantics for generating visually real content, our proposed GCE strives to perform content enrichment explicitly on both the visual and textual domain, from which the enriched contents are visually real, structurally reasonable, and semantically abundant. Towards to solve GCE, we propose a deep end-to-end method that explicitly explores the semantics and inter-semantic relationships during the enrichment. Specifically, we first model the input description as a semantic graph, wherein each node represents an object and each edge corresponds to the inter-object relationship. We then adopt Graph Convolutional Networks on top of the input scene description to predict the enriching objects and their relationships with the input objects. Finally, the enriched description is fed into an image synthesis model to carry out the visual contents generation. Our experiments conducted on the Visual Genome dataset exhibit promising and visually plausible results.
arxiv情報
著者 | Mahdi Naseri,Jiayan Qiu,Zhou Wang |
発行日 | 2024-06-11 17:12:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google