mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

要約

最近、ラージ言語モデル (LLM) の強力なテキスト作成能力により、論文の読み書きを支援するツールが数多く誕生しました。
ただし、LLM またはマルチモーダル LLM のダイアグラム分析能力が弱いため、特に科学学術論文執筆の場合、アプリケーション シナリオが大幅に制限されます。
この作業では、学術論文執筆のためのより汎用性の高い副操縦士を目指して、主にマルチモーダル LLM のマルチモーダル ダイアグラム分析能力の強化に焦点を当てています。
高品質論文の Latex ソース ファイルを解析することで、データセット M-Paper を理解するマルチモーダル ダイアグラムを慎重に構築します。
論文内の図を関連する段落と調整することで、トレーニングと評価用の専門的な図分析サンプルを構築します。
M-Paper は、画像または Latex コード形式の図や表など、複数の科学図の共同理解をサポートする最初のデータセットです。
さらに、副操縦士をユーザーの意図に合わせて調整するために、制御信号として「アウトライン」を導入します。これはユーザーによって直接与えられるか、自動生成されたものに基づいて修正されます。
最先端の Mumtimodal LLM を使用した包括的な実験により、データセットでのトレーニングにより、図のキャプション、図の分析、概要の推奨など、より強力な科学的な図の理解パフォーマンスが示されることが実証されました。
データセット、コード、モデルは https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl で入手できます。

要約(オリジナル)

Recently, the strong text creation ability of Large Language Models(LLMs) has given rise to many tools for assisting paper reading or even writing. However, the weak diagram analysis abilities of LLMs or Multimodal LLMs greatly limit their application scenarios, especially for scientific academic paper writing. In this work, towards a more versatile copilot for academic paper writing, we mainly focus on strengthening the multi-modal diagram analysis ability of Multimodal LLMs. By parsing Latex source files of high-quality papers, we carefully build a multi-modal diagram understanding dataset M-Paper. By aligning diagrams in the paper with related paragraphs, we construct professional diagram analysis samples for training and evaluation. M-Paper is the first dataset to support joint comprehension of multiple scientific diagrams, including figures and tables in the format of images or Latex codes. Besides, to better align the copilot with the user’s intention, we introduce the `outline’ as the control signal, which could be directly given by the user or revised based on auto-generated ones. Comprehensive experiments with a state-of-the-art Mumtimodal LLM demonstrate that training on our dataset shows stronger scientific diagram understanding performance, including diagram captioning, diagram analysis, and outline recommendation. The dataset, code, and model are available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl.

arxiv情報

著者 Anwen Hu,Yaya Shi,Haiyang Xu,Jiabo Ye,Qinghao Ye,Ming Yan,Chenliang Li,Qi Qian,Ji Zhang,Fei Huang
発行日 2024-01-09 12:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM パーマリンク