Explicitly Representing Syntax Improves Sentence-to-layout Prediction of Unexpected Situations

要約

自然言語文内の視覚的エンティティを認識し、それらを 2D 空間レイアウトに配置するには、言語と空間を構成的に理解する必要があります。
レイアウト予測のこのタスクは、画像の局所的かつ制御されたインペイントを可能にするため、テキストから画像への合成において価値があります。
この比較研究では、文がトレーニング中に見られたものと同様のエンティティ関係に言及している場合、文の構文を暗黙的または明示的にエンコードする言語表現からレイアウトを予測できることが示されています。
構成の理解をテストするために、トレーニング中に見られる可能性が低いエンティティと関係の構成を説明する文法的に正しい文とレイアウトのテスト セットを収集します。
このテスト セットのパフォーマンスは大幅に低下しており、現在のモデルがトレーニング データの相関関係に依存しており、入力文の構造を理解するのが難しいことがわかります。
我々は、入力文の構文構造をより適切に強化し、テキストを条件とした 2D 空間レイアウト予測タスクで大きなパフォーマンス向上を示す、新しい構造損失関数を提案します。
この損失は、ツリー状の構造が条件付けモダリティの基礎となる他の生成タスクで使用される可能性があります。
コード、トレーニング済みモデル、および USCOCO 評価セットは、github 経由で入手できます。

要約(オリジナル)

Recognizing visual entities in a natural language sentence and arranging them in a 2D spatial layout require a compositional understanding of language and space. This task of layout prediction is valuable in text-to-image synthesis as it allows localized and controlled in-painting of the image. In this comparative study it is shown that we can predict layouts from language representations that implicitly or explicitly encode sentence syntax, if the sentences mention similar entity-relationships to the ones seen during training. To test compositional understanding, we collect a test set of grammatically correct sentences and layouts describing compositions of entities and relations that unlikely have been seen during training. Performance on this test set substantially drops, showing that current models rely on correlations in the training data and have difficulties in understanding the structure of the input sentences. We propose a novel structural loss function that better enforces the syntactic structure of the input sentence and show large performance gains in the task of 2D spatial layout prediction conditioned on text. The loss has the potential to be used in other generation tasks where a tree-like structure underlies the conditioning modality. Code, trained models and the USCOCO evaluation set are available via github.

arxiv情報

著者 Wolf Nuyts,Ruben Cartuyvels,Marie-Francine Moens
発行日 2024-04-16 14:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク