要約
本論文では、生成コンテンツエンリッチメント(GCE)と呼ばれる新しい人工知能生成タスクを研究する。与えられたテキスト記述を、限られたセマンティクスで暗黙的にエンリッチし、視覚的にリアルなコンテンツを生成する従来の人工知能コンテンツ生成タスクとは異なり、我々の提案するGCEは、視覚とテキストの両方の領域で明示的にコンテンツエンリッチメントを行い、エンリッチされたコンテンツを視覚的にリアルで、構造的に合理的で、セマンティクス的に豊富なものにすることを目指す。GCEを解決するために、我々はエンリッチメント中にセマンティクスとセマンティクス間の関係を明示的に探索する深いエンドツーエンドの手法を提案する。具体的には、まず入力記述をセマンティックグラフとしてモデル化し、各ノードがオブジェクトを表し、各辺がオブジェクト間の関係に対応する。次に、入力シーン記述の上にグラフ畳み込みネットワークを採用し、エンリッチされるオブジェクトと入力オブジェクトとの関係を予測する。最後に、エンリッチされたグラフを画像合成モデルに入力し、視覚コンテンツ生成を行う。ビジュアルゲノムデータセットを用いた実験では、有望で視覚的に妥当な結果が得られた。
要約(オリジナル)
In this paper, we investigate a novel artificial intelligence generation task, termed as generated contents enrichment (GCE). Different from conventional artificial intelligence contents generation task that enriches the given textual description implicitly with limited semantics for generating visually real content, our proposed GCE strives to perform content enrichment explicitly on both the visual and textual domain, from which the enriched contents are visually real, structurally reasonable, and semantically abundant. Towards to solve GCE, we propose a deep end-to-end method that explicitly explores the semantics and inter-semantic relationships during the enrichment. Specifically, we first model the input description as a semantic graph, wherein each node represents an object and each edge corresponds to the inter-object relationship. We then adopt Graph Convolutional Networks on top of the input scene description to predict the enriching objects and their relationships with the input objects. Finally, the enriched graph is fed into an image synthesis model to carry out the visual contents generation. Our experiments conducted on the Visual Genome dataset exhibit promising and visually plausible results.
arxiv情報
著者 | Mahdi Naseri,Jiayan Qiu,Zhou Wang |
発行日 | 2024-05-06 17:14:09+00:00 |
arxivサイト | arxiv_id(pdf) |