Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator

要約

レイアウトの生成は、意味のある要素の構成を実現するためのグラフィック デザインにおける重要なステップです。
これまでの研究のほとんどは、要素の属性トークン (カテゴリ、サイズ、位置) を連結することによるシーケンス生成の問題として捉えていました。
これまでのところ、自己回帰アプローチ (AR) は有望な結果を達成していますが、グローバル コンテキスト モデリングでは依然として制限があり、以前に生成されたトークンにしか対応できないため、エラー伝播の影響を受けます。
最近の非自己回帰の試み (NAR) では、競合的な結果が示されており、より広いコンテキスト範囲と反復デコードによる改良の柔軟性が提供されています。
しかし、現在の研究では、改良のために誤ったトークンを認識するために単純なヒューリスティックのみが使用されており、これは不正確です。
このペーパーでは、AR フレームワークと NAR フレームワークの違いをよりよく理解するために、まず詳細な分析を実施します。
さらに、ピクセル空間はグラフィックレイアウトの空間パターン(重なり、位置合わせなど)をキャプチャする際により敏感であるという観察に基づいて、生成されたレイアウトシーケンスからレンダリングされたワイヤーフレーム画像を次のように取得する、誤ったトークンを検出するための学習ベースのロケーターを提案します。
入力。
これがオブジェクト空間の要素シーケンスに対する補完的なモダリティとして機能し、全体のパフォーマンスに大きく貢献することを示します。
2 つの公開データセットでの実験では、私たちのアプローチが AR ベースラインと NAR ベースラインの両方を上回るパフォーマンスを示しています。
広範な研究により、さまざまなモジュールの有効性がさらに証明され、興味深い結果が得られました。
私たちのコードは https://github.com/ffffatgoose/SpotError で入手できます。

要約(オリジナル)

Layout generation is a critical step in graphic design to achieve meaningful compositions of elements. Most previous works view it as a sequence generation problem by concatenating element attribute tokens (i.e., category, size, position). So far the autoregressive approach (AR) has achieved promising results, but is still limited in global context modeling and suffers from error propagation since it can only attend to the previously generated tokens. Recent non-autoregressive attempts (NAR) have shown competitive results, which provides a wider context range and the flexibility to refine with iterative decoding. However, current works only use simple heuristics to recognize erroneous tokens for refinement which is inaccurate. This paper first conducts an in-depth analysis to better understand the difference between the AR and NAR framework. Furthermore, based on our observation that pixel space is more sensitive in capturing spatial patterns of graphic layouts (e.g., overlap, alignment), we propose a learning-based locator to detect erroneous tokens which takes the wireframe image rendered from the generated layout sequence as input. We show that it serves as a complementary modality to the element sequence in object space and contributes greatly to the overall performance. Experiments on two public datasets show that our approach outperforms both AR and NAR baselines. Extensive studies further prove the effectiveness of different modules with interesting findings. Our code will be available at https://github.com/ffffatgoose/SpotError.

arxiv情報

著者 Jieru Lin,Danqing Huang,Tiejun Zhao,Dechen Zhan,Chin-Yew Lin
発行日 2024-01-29 18:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク