要約
事前学習された大規模言語モデル(LLM)の要約能力は、一般的な分野では広く検証されているが、複雑な文章や専門的な知識を含む科学コーパスでの利用はあまり評価されていない。本論文では、科学的要約の概念分析と実験的分析を行い、特に、説明の提供、科学的概念の把握、重要な内容の特定において、$n$-gram、埋め込み比較、QAといった従来の評価手法の不十分さを強調する。その後、我々はファセット認識メトリック(FM)を導入し、高度な意味的マッチングのためにLLMを採用し、様々な側面に基づいて要約を評価する。このファセット認識アプローチは、評価タスクをより単純なサブタスクに分解することで、要約の徹底的な評価を提供する。この領域には評価ベンチマークが存在しないことを認識し、ファセットレベルの注釈を持つファセットベースの科学的要約データセット(FD)を作成した。我々の結果は、FMが科学的要約を評価するためのより論理的なアプローチを提供することを確認した。さらに、微調整された小さいモデルは、科学的な文脈においてLLMと競合することができるが、LLMは科学的なドメインにおいて文脈内の情報から学習することに限界がある。このことは、LLMの将来的な強化分野を示唆している。
要約(オリジナル)
The summarization capabilities of pretrained and large language models (LLMs) have been widely validated in general areas, but their use in scientific corpus, which involves complex sentences and specialized knowledge, has been less assessed. This paper presents conceptual and experimental analyses of scientific summarization, highlighting the inadequacies of traditional evaluation methods, such as $n$-gram, embedding comparison, and QA, particularly in providing explanations, grasping scientific concepts, or identifying key content. Subsequently, we introduce the Facet-aware Metric (FM), employing LLMs for advanced semantic matching to evaluate summaries based on different aspects. This facet-aware approach offers a thorough evaluation of abstracts by decomposing the evaluation task into simpler subtasks.Recognizing the absence of an evaluation benchmark in this domain, we curate a Facet-based scientific summarization Dataset (FD) with facet-level annotations. Our findings confirm that FM offers a more logical approach to evaluating scientific summaries. In addition, fine-tuned smaller models can compete with LLMs in scientific contexts, while LLMs have limitations in learning from in-context information in scientific domains. This suggests an area for future enhancement of LLMs.
arxiv情報
| 著者 | Xiuying Chen,Tairan Wang,Qingqing Zhu,Taicheng Guo,Shen Gao,Zhiyong Lu,Xin Gao,Xiangliang Zhang |
| 発行日 | 2025-05-02 05:08:48+00:00 |
| arxivサイト | arxiv_id(pdf) |