Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

要約

アカデミックポスターの世代は、科学的コミュニケーションにおいて重要でありながら挑戦的なタスクであり、長いコンテキストインターリーブドキュメントを単一の視覚的に一貫したページに圧縮する必要があります。
この課題に対処するために、ポスター生成のための最初のベンチマークとメトリックスイートを紹介します。これは、最近のカンファレンスペーパーと著者が設計したポスターと組み合わせて、(i)視覚的品質セマンチックなアライメントと人間のポスターとのアウトプットを評価します。
(iv)PaperQuiz-生成されたクイズに応答するVLMSで測定されたコアペーパーコンテンツを伝えるポスターの能力。
このベンチマークに基づいて、トップダウンのループ内のマルチエージェントパイプラインであるPosteragentを提案します。
(b)プランナーは、読み取り順序と空間バランスを保持するテキスト視覚ペアをバイナリツリーレイアウトに並べます。
(c)ペインターコモン剤ループは、レンダリングコードを実行し、VLMフィードバックを使用してオーバーフローを排除し、アライメントを確保することにより、各パネルを改良します。
包括的な評価では、GPT-4O出力は、一見した展示で視覚的に魅力的であることがわかりますが、最初は騒々しいテキストと貧弱なペーパークイズスコアがあります。また、人間が設計したポスターは、意味を伝えるための視覚的なセマンティックに大きく依存しているため、読者のエンゲージメントが主要な審美的なボトルネックであることがわかります。
完全にオープンソースのバリエーション(QWEN-2.5シリーズに基づく)は、ほぼすべてのメトリックで既存の4o駆動型マルチエージェントシステムを上回り、87%少ないトークンを使用します。
22ページの論文を最終的に編集可能な.pptxポスターに変換します – すべて$ 0.005です。
これらの調査結果は、次世代の完全に自動化されたポスタージェネレーションモデルの明確な方向を示しています。
コードとデータセットは、https://github.com/paper2poster/paper2opterで入手できます。

要約(オリジナル)

Academic poster generation is a crucial yet challenging task in scientific communication, requiring the compression of long-context interleaved documents into a single, visually coherent page. To address this challenge, we introduce the first benchmark and metric suite for poster generation, which pairs recent conference papers with author-designed posters and evaluates outputs on (i)Visual Quality-semantic alignment with human posters, (ii)Textual Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic and informational criteria scored by a VLM-as-judge, and notably (iv)PaperQuiz-the poster’s ability to convey core paper content as measured by VLMs answering generated quizzes. Building on this benchmark, we propose PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser distills the paper into a structured asset library; the (b)Planner aligns text-visual pairs into a binary-tree layout that preserves reading order and spatial balance; and the (c)Painter-Commenter loop refines each panel by executing rendering code and using VLM feedback to eliminate overflow and ensure alignment. In our comprehensive evaluation, we find that GPT-4o outputs-though visually appealing at first glance-often exhibit noisy text and poor PaperQuiz scores, and we find that reader engagement is the primary aesthetic bottleneck, as human-designed posters rely largely on visual semantics to convey meaning. Our fully open-source variants (e.g. based on the Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper into a finalized yet editable .pptx poster – all for just $0.005. These findings chart clear directions for the next generation of fully automated poster-generation models. The code and datasets are available at https://github.com/Paper2Poster/Paper2Poster.

arxiv情報

著者 Wei Pang,Kevin Qinghong Lin,Xiangru Jian,Xi He,Philip Torr
発行日 2025-05-27 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MA パーマリンク