要約
大規模言語モデル (LLM) のトレーニングと評価に質問と回答 (QA) のペアを使用することは、かなりの注目を集めています。
しかし、科学文献の知識に基づいた利用可能な QA データセットはほとんどありません。
ここでは、出版された科学文献に基づいた科学的 QA ペアの自動生成と評価のためのフレームワークである、科学的質問回答の自動生成 (SciQAG) を提示することで、このギャップを埋めます。
私たちはオープンソース LLM を微調整して、科学論文の全文から \num{960,000} 個の科学 QA ペアを生成し、生成された QA ペアの品質を評価するための 5 次元の指標を提案します。
LLM ベースの評価により、生成された QA ペアが 5 つの次元にわたって一貫して 3 点中 2.5 の平均スコアを達成していることを示し、これは、私たちのフレームワークが論文から重要な知識を大規模に高品質の QA ペアに抽出できることを示しています。
データセット、モデル、評価コードを公開します。
要約(オリジナル)
The use of question-answer (QA) pairs for training and evaluating large language models (LLMs) has attracted considerable attention. Yet few available QA datasets are based on knowledge from the scientific literature. Here we bridge this gap by presenting Automatic Generation of Scientific Question Answers (SciQAG), a framework for automatic generation and evaluation of scientific QA pairs sourced from published scientific literature. We fine-tune an open-source LLM to generate \num{960000} scientific QA pairs from full-text scientific papers and propose a five-dimensional metric to evaluate the quality of the generated QA pairs. We show via LLM-based evaluation that the generated QA pairs consistently achieve an average score of 2.5 out of 3 across five dimensions, indicating that our framework can distill key knowledge from papers into high-quality QA pairs at scale. We make the dataset, models, and evaluation codes publicly available.
arxiv情報
著者 | Yuwei Wan,Aswathy Ajith,Yixuan Liu,Ke Lu,Clara Grazian,Bram Hoex,Wenjie Zhang,Chunyu Kit,Tong Xie,Ian Foster |
発行日 | 2024-05-16 09:42:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google