要約
長い入力ドキュメントからのポスターは、優れたデザイン要素を備えた優れたテンプレート上に表示された、読みやすい 1 ページのマルチモーダル (テキストと画像) 概要と考えることができます。
長い文書を自動的にポスターに変換することは、あまり研究されていませんが、困難な作業です。
これには、入力ドキュメントのコンテンツの要約とそれに続くテンプレートの生成と調和が含まれます。
この研究では、文書からマルチモーダルなコンテンツを抽出し、テキストと画像の優れたカバレッジ、多様性、および位置合わせを明示的に保証するために、グラウンド トゥルースの要約に基づいてトレーニングできる新しいディープ サブモジュール関数を提案します。
次に、LLM ベースの言い換えを使用し、入力コンテンツに応じてさまざまな設計面を備えたテンプレートを生成することを提案します。
当社では、広範な自動評価と人間による評価を通じて、アプローチのメリットを示しています。
要約(オリジナル)
A poster from a long input document can be considered as a one-page easy-to-read multimodal (text and images) summary presented on a nice template with good design elements. Automatic transformation of a long document into a poster is a very less studied but challenging task. It involves content summarization of the input document followed by template generation and harmonization. In this work, we propose a novel deep submodular function which can be trained on ground truth summaries to extract multimodal content from the document and explicitly ensures good coverage, diversity and alignment of text and images. Then, we use an LLM based paraphraser and propose to generate a template with various design aspects conditioned on the input content. We show the merits of our approach through extensive automated and human evaluations.
arxiv情報
著者 | Vijay Jaisankar,Sambaran Bandyopadhyay,Kalp Vyas,Varre Chaitanya,Shwetha Somasundaram |
発行日 | 2024-05-30 16:16:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google