Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation

要約

コンテンツを意識したグラフィック レイアウトの生成は、電子商取引の商品画像などの特定のコンテンツに合わせて視覚要素を自動的に配置することを目的としています。
この論文では、現在のレイアウト生成アプローチでは、高次元レイアウト構造のトレーニング データが限られているという問題があると主張します。
単純な検索拡張によって生成品質が大幅に向上する可能性があることを示します。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる私たちのモデルは、入力画像に基づいて最近傍レイアウトの例を取得し、これらの結果を自己回帰ジェネレーターにフィードします。
私たちのモデルは、さまざまな制御可能な生成タスクに検索拡張を適用し、統一されたアーキテクチャ内で高品質のレイアウトを生成できます。
私たちの広範な実験により、RALF は制約のある設定と制約のない設定の両方でコンテンツを認識したレイアウトを生成し、ベースラインを大幅に上回るパフォーマンスを示すことがわかりました。

要約(オリジナル)

Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines.

arxiv情報

著者 Daichi Horita,Naoto Inoue,Kotaro Kikuchi,Kota Yamaguchi,Kiyoharu Aizawa
発行日 2023-11-22 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク