要約
大規模な言語モデル(LLM)は、バイオメディシンなどの科学分野、特に仮説生成において重要な可能性を示しており、そこでは膨大な文献を分析し、パターンを特定し、研究の方向性を示唆しています。
ただし、重要な課題は、生成された仮説の真実性を評価することにあります。その精度を検証するには、多くの場合、かなりの時間とリソースが必要です。
さらに、LLMSの幻覚の問題は、もっともらしいと思われるが最終的には間違っている仮説の生成につながる可能性があり、信頼性を損ないます。
これらの課題の体系的な研究を促進するために、真実の生物医学的仮説を生成する際のLLMの能力を評価するためのベンチマークと、既存の知識にどの程度の仮説が根拠があるかを評価するための知識ベースの幻覚検出器であるTruthHypoを紹介します。
私たちの結果は、LLMSが真実の仮説を生み出すのに苦労していることを示しています。
推論ステップで幻覚を分析することにより、KnowHDが提供する接地スコアが、LLMの多様な出力から真実の仮説をフィルタリングするための効果的なメトリックとして機能することを実証します。
人間の評価は、真実の仮説を特定し、科学的発見を加速する際に、KnowHDの有用性をさらに検証します。
データとソースコードは、https://github.com/teddy-xionggz/truthhypoで入手できます。
要約(オリジナル)
Large language models (LLMs) have shown significant potential in scientific disciplines such as biomedicine, particularly in hypothesis generation, where they can analyze vast literature, identify patterns, and suggest research directions. However, a key challenge lies in evaluating the truthfulness of generated hypotheses, as verifying their accuracy often requires substantial time and resources. Additionally, the hallucination problem in LLMs can lead to the generation of hypotheses that appear plausible but are ultimately incorrect, undermining their reliability. To facilitate the systematic study of these challenges, we introduce TruthHypo, a benchmark for assessing the capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD, a knowledge-based hallucination detector to evaluate how well hypotheses are grounded in existing knowledge. Our results show that LLMs struggle to generate truthful hypotheses. By analyzing hallucinations in reasoning steps, we demonstrate that the groundedness scores provided by KnowHD serve as an effective metric for filtering truthful hypotheses from the diverse outputs of LLMs. Human evaluations further validate the utility of KnowHD in identifying truthful hypotheses and accelerating scientific discovery. Our data and source code are available at https://github.com/Teddy-XiongGZ/TruthHypo.
arxiv情報
著者 | Guangzhi Xiong,Eric Xie,Corey Williams,Myles Kim,Amir Hassan Shariatmadari,Sikun Guo,Stefan Bekiranov,Aidong Zhang |
発行日 | 2025-05-20 16:49:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google