Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph

要約

従来のキーワードを超えたプロパティやディメンションを使用した構造化された科学サマリーや研究貢献は、科学ファインダビリティを向上させる。Open Research Knowledge Graph (ORKG)で使用されているような現在の方法では、研究論文の貢献を構造化された方法で記述するために、手作業でプロパティをキュレーションしていますが、これは労力がかかり、ドメインの専門家である人間のキュレーター間で一貫性がありません。我々は、これらのプロパティを自動的に提案するために大規模言語モデル(LLM)を使用することを提案する。しかし、GPT-3.5、Llama 2、MistralのようなLLMがこのタスクに適しているか、適用前に評価することが不可欠である。本研究では、ORKGが手動でキュレーションしたプロパティと、前述の最先端のLLMによって生成されたプロパティの包括的な比較分析を行う。ORKGプロパティとの意味的な整合性と乖離、きめ細かなプロパティのマッピング精度、SciNCLエンベッディングに基づく余弦類似度、手動アノテーションとLLM出力を比較する専門家調査という4つのユニークな観点からLLMの性能を評価する。これらの評価は、学際的なサイエンスの場で行われた。全体として、LLMは科学を構造化するための推薦システムとしての可能性を示しているが、科学的タスクとの整合性と人間の専門知識の模倣を改善するために、さらなる微調整が推奨される。

要約(オリジナル)

Structured science summaries or research contributions using properties or dimensions beyond traditional keywords enhances science findability. Current methods, such as those used by the Open Research Knowledge Graph (ORKG), involve manually curating properties to describe research papers’ contributions in a structured manner, but this is labor-intensive and inconsistent between the domain expert human curators. We propose using Large Language Models (LLMs) to automatically suggest these properties. However, it’s essential to assess the readiness of LLMs like GPT-3.5, Llama 2, and Mistral for this task before application. Our study performs a comprehensive comparative analysis between ORKG’s manually curated properties and those generated by the aforementioned state-of-the-art LLMs. We evaluate LLM performance through four unique perspectives: semantic alignment and deviation with ORKG properties, fine-grained properties mapping accuracy, SciNCL embeddings-based cosine similarity, and expert surveys comparing manual annotations with LLM outputs. These evaluations occur within a multidisciplinary science setting. Overall, LLMs show potential as recommendation systems for structuring science, but further finetuning is recommended to improve their alignment with scientific tasks and mimicry of human expertise.

arxiv情報

著者 Vladyslav Nechakhin,Jennifer D’Souza,Steffen Eger
発行日 2024-05-03 14:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IT, math.IT パーマリンク