要約
ドキュメント レイアウトの生成は広く研究されていますが、レイアウトとコンテンツの両方を含む包括的なドキュメントの生成には、より複雑な課題が伴います。
この論文では、この高度な領域を掘り下げ、シンプルかつ効果的な自己回帰構造モデルの開発を通じて、DocSynthv2 と呼ばれる新しいアプローチを提案します。
私たちのモデルは、レイアウトとテキストの手がかりの両方を統合している点が特徴で、既存のレイアウト生成アプローチを一歩超えています。
文書内の構造要素とテキストコンテンツの関係に焦点を当てることで、視覚的なコンポーネントに依存せずに、一貫性があり文脈に関連した文書を生成することを目指しています。
新しいタスク用に厳選されたベンチマークに関する実験的研究を通じて、レイアウトとテキスト情報を組み合わせたモデルがドキュメントの生成品質と関連性を向上させ、ドキュメント作成と自動設計の研究に新しい道を開く能力を実証しました。
私たちの調査結果は、複雑なドキュメント生成タスクを処理する際の自己回帰モデルの有効性を強調しています。
要約(オリジナル)
While the generation of document layouts has been extensively explored, comprehensive document generation encompassing both layout and content presents a more complex challenge. This paper delves into this advanced domain, proposing a novel approach called DocSynthv2 through the development of a simple yet effective autoregressive structured model. Our model, distinct in its integration of both layout and textual cues, marks a step beyond existing layout-generation approaches. By focusing on the relationship between the structural elements and the textual content within documents, we aim to generate cohesive and contextually relevant documents without any reliance on visual components. Through experimental studies on our curated benchmark for the new task, we demonstrate the ability of our model combining layout and textual information in enhancing the generation quality and relevance of documents, opening new pathways for research in document creation and automated design. Our findings emphasize the effectiveness of autoregressive models in handling complex document generation tasks.
arxiv情報
著者 | Sanket Biswas,Rajiv Jain,Vlad I. Morariu,Jiuxiang Gu,Puneet Mathur,Curtis Wigington,Tong Sun,Josep Lladós |
発行日 | 2024-06-12 16:00:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google