Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation

要約

この論文では、一般に分野の専門家によって行われる手動の評価プロセスを合理化するために設計された、事実の科学的知識のエンコードを評価するためのフレームワークを紹介します。
科学文献の大規模なコーパスでトレーニングされた大規模言語モデル (LLM) から情報を推論して抽出すると、生物医学の発見における段階的な変化を定義できる可能性があり、既存の医学的証拠にアクセスして統合するための障壁が軽減されます。
この研究では、抗生物質発見の文脈を使用して、生物医学の背景知識と対話するための LLM の可能性を探ります。
このフレームワークには 3 つの評価ステップが含まれており、各ステップでは、流暢さ、プロンプト調整、意味論的一貫性、事実知識、生成された応答の特異性といったさまざまな側面を順番に評価します。
このフレームワークは、これらのタスクを非専門家と専門家の間で分割することにより、後者に必要な労力を軽減します。
この研究では、化合物定義の生成と化合物と真菌の関係の決定という 2 つのプロンプトベースのタスクにおける、ChatGPT、GPT-4、Llama 2 を含む 11 の最先端モデル LLM の能力について体系的な評価が提供されています。
最近のモデルの流暢性は向上しましたが、事実の正確性は依然として低く、モデルは過剰に代表されるエンティティに偏っています。
LLM が生物医学知識ベースとして機能する能力には疑問があり、追加の体系的な評価フレームワークの必要性が強調されています。
LLM は現在、ゼロショット設定で生物医学の事実知識ベースとして使用する目的には適していませんが、モデルが領域に特化され、人間のサイズとレベルがスケールアップされるにつれて、事実性の方向に有望な新たな特性が現れています。
フィードバック。

要約(オリジナル)

The paper introduces a framework for the evaluation of the encoding of factual scientific knowledge, designed to streamline the manual evaluation process typically conducted by domain experts. Inferring over and extracting information from Large Language Models (LLMs) trained on a large corpus of scientific literature can potentially define a step change in biomedical discovery, reducing the barriers for accessing and integrating existing medical evidence. This work explores the potential of LLMs for dialoguing with biomedical background knowledge, using the context of antibiotic discovery. The framework involves of three evaluation steps, each assessing different aspects sequentially: fluency, prompt alignment, semantic coherence, factual knowledge, and specificity of the generated responses. By splitting these tasks between non-experts and experts, the framework reduces the effort required from the latter. The work provides a systematic assessment on the ability of eleven state-of-the-art models LLMs, including ChatGPT, GPT-4 and Llama 2, in two prompting-based tasks: chemical compound definition generation and chemical compound-fungus relation determination. Although recent models have improved in fluency, factual accuracy is still low and models are biased towards over-represented entities. The ability of LLMs to serve as biomedical knowledge bases is questioned, and the need for additional systematic evaluation frameworks is highlighted. While LLMs are currently not fit for purpose to be used as biomedical factual knowledge bases in a zero-shot setting, there is a promising emerging property in the direction of factuality as the models become domain specialised, scale-up in size and level of human feedback.

arxiv情報

著者 Magdalena Wysocka,Oskar Wysocki,Maxime Delmas,Vincent Mutel,Andre Freitas
発行日 2024-10-18 12:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク