要約
手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。
既存の自然言語ベースのLLM生成方法は、スライドデザインの視覚的および構造的なニュアンスを捉えるのに苦労しています。
これに対処するために、参照イメージをスライド生成タスクに正式にし、新しいスライドの複雑さメトリックに基づいて難易度層のサンプルを使用した最初のベンチマークであるSlide2Codeを提案します。
参照イメージから編集可能なスライドを生成するためのレイアウト認識で検索された高級フレームワークであるSlideCoderを紹介します。
SlideCoderは、複雑なタスクを分解し、コード生成を強化するために、カラーグラデーションベースのセグメンテーションアルゴリズムと階層検索の高度生成方法を統合します。
また、改善されたリバースエンジニアリングデータで微調整された7BオープンソースモデルであるSlidemasterもリリースします。
実験では、スライドコダーが最先端のベースラインを最大40.5ポイント上回ることを示しており、レイアウトの忠実度、実行の精度、視覚的な一貫性全体で強力なパフォーマンスを示しています。
当社のコードは、https://github.com/vinsontang1/slidecoderで入手できます。
要約(オリジナル)
Manual slide creation is labor-intensive and requires expert prior knowledge. Existing natural language-based LLM generation methods struggle to capture the visual and structural nuances of slide designs. To address this, we formalize the Reference Image to Slide Generation task and propose Slide2Code, the first benchmark with difficulty-tiered samples based on a novel Slide Complexity Metric. We introduce SlideCoder, a layout-aware, retrieval-augmented framework for generating editable slides from reference images. SlideCoder integrates a Color Gradient-based Segmentation algorithm and a Hierarchical Retrieval-Augmented Generation method to decompose complex tasks and enhance code generation. We also release SlideMaster, a 7B open-source model fine-tuned with improved reverse-engineered data. Experiments show that SlideCoder outperforms state-of-the-art baselines by up to 40.5 points, demonstrating strong performance across layout fidelity, execution accuracy, and visual consistency. Our code is available at https://github.com/vinsontang1/SlideCoder.
arxiv情報
著者 | Wenxin Tang,Jingyu Xiao,Wenxuan Jiang,Xi Xiao,Yuhang Wang,Xuxin Tang,Qing Li,Yuehe Ma,Junliang Liu,Shisong Tang,Michael R. Lyu |
発行日 | 2025-06-09 17:39:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google