RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain

要約

大規模言語モデル (LLM) は、生物医学など社会に大きな影響を与える可能性のあるアプリケーションを含め、幅広いドメインのアプリケーションをサポートするようになっていますが、現実的なユースケースにおけるその信頼性は十分に研究されていません。
この研究では、生物医学 LLM アシスタントの信頼性評価 (RAmBLA) フレームワークを導入し、4 つの最先端の財団 LLM が生物医学領域で信頼できるアシスタントとして機能できるかどうかを評価します。
このユースケースに必要な基準として、迅速な堅牢性、高い再現率、幻覚の欠如を特定します。
短い形式のタスクと、現実世界のユーザー インタラクションを模倣した LLM 自由形式の応答を必要とするタスクを設計します。
エバリュエーター LLM を通じて、グラウンド トゥルース応答との意味的類似性を使用して、LLM のパフォーマンスを評価します。

要約(オリジナル)

Large Language Models (LLMs) increasingly support applications in a wide range of domains, some with potential high societal impact such as biomedicine, yet their reliability in realistic use cases is under-researched. In this work we introduce the Reliability AssesMent for Biomedical LLM Assistants (RAmBLA) framework and evaluate whether four state-of-the-art foundation LLMs can serve as reliable assistants in the biomedical domain. We identify prompt robustness, high recall, and a lack of hallucinations as necessary criteria for this use case. We design shortform tasks and tasks requiring LLM freeform responses mimicking real-world user interactions. We evaluate LLM performance using semantic similarity with a ground truth response, through an evaluator LLM.

arxiv情報

著者 William James Bolton,Rafael Poyiadzi,Edward R. Morrell,Gabriela van Bergen Gonzalez Bueno,Lea Goetz
発行日 2024-03-21 17:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク