Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System

要約

大規模言語モデルの出現によって大幅に加速された現代の情報時代では、科学文献の急増は前例のないレベルに達しています。
研究者は、学術論文を読んで要約し、重要な科学文献を発見し、多様な解釈方法を採用するための効率的なツールを緊急に必要としています。
この急増する需要に対応するには、自動化された科学文献解釈システムの役割が最も重要になってきています。
しかし、商用モデルでもオープンソースモデルでも、普及しているモデルは顕著な課題に直面しています。マルチモーダルデータが見落とされることが多く、長すぎるテキストの要約に苦労し、多様なユーザーインターフェイスが欠如しています。
これに応えて、私たちは 3 段階のプロセス段階を備えたオープンソースのマルチモーダル自動学術論文解釈システム (MMAPIS) を導入し、その機能を強化するために LLM を組み込んでいます。
私たちのシステムはまず、ハイブリッド モダリティの前処理および位置合わせモジュールを使用して、ドキュメントからプレーン テキストと表または図を個別に抽出します。
次に、この情報が属するセクション名に基づいて位置が調整され、同一のセクション名を持つデータが同じセクションに分類されるようになります。
これに続いて、階層的な談話を意識した要約方法を紹介します。
抽出されたセクション名を利用して記事を短いテキストセグメントに分割し、特定のプロンプトを備えた LLM を介してセクション内およびセクション間の特定の要約を容易にします。
最後に、論文の推薦、マルチモーダル Q&A、音声放送、通訳ブログなど、さまざまなシナリオに幅広く適用できる 4 種類の多様なユーザー インターフェイスを設計しました。
私たちの定性的および定量的評価は、特に科学的な要約において、GPT-4 のみに依存するソリューションよりも優れたパフォーマンスを発揮するシステムの優位性を強調しています。

要約(オリジナル)

In the contemporary information era, significantly accelerated by the advent of Large-scale Language Models, the proliferation of scientific literature is reaching unprecedented levels. Researchers urgently require efficient tools for reading and summarizing academic papers, uncovering significant scientific literature, and employing diverse interpretative methodologies. To address this burgeoning demand, the role of automated scientific literature interpretation systems has become paramount. However, prevailing models, both commercial and open-source, confront notable challenges: they often overlook multimodal data, grapple with summarizing over-length texts, and lack diverse user interfaces. In response, we introduce an open-source multi-modal automated academic paper interpretation system (MMAPIS) with three-step process stages, incorporating LLMs to augment its functionality. Our system first employs the hybrid modality preprocessing and alignment module to extract plain text, and tables or figures from documents separately. It then aligns this information based on the section names they belong to, ensuring that data with identical section names are categorized under the same section. Following this, we introduce a hierarchical discourse-aware summarization method. It utilizes the extracted section names to divide the article into shorter text segments, facilitating specific summarizations both within and between sections via LLMs with specific prompts. Finally, we have designed four types of diversified user interfaces, including paper recommendation, multimodal Q\&A, audio broadcasting, and interpretation blog, which can be widely applied across various scenarios. Our qualitative and quantitative evaluations underscore the system’s superiority, especially in scientific summarization, where it outperforms solutions relying solely on GPT-4.

arxiv情報

著者 Feng Jiang,Kuang Wang,Haizhou Li
発行日 2024-01-17 11:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク