要約
この研究論文は、特に医療分野の文脈において、大規模言語モデル (LLM) における幻覚によってもたらされる課題に焦点を当てています。
これらのモデルがもっともらしいが未検証または不正確な情報を生成する幻覚は、医療用途において重大な結果をもたらす可能性があります。
私たちは、幻覚を評価し軽減するために特別に設計された新しいベンチマークとデータセットである Med-HALT (医療ドメイン幻覚テスト) を提案します。
Med-HALT は、さまざまな国の健康診断から得られた多様な多国籍データセットを提供しており、複数の革新的な検査方法が含まれています。
Med-HALT には、LLM の問題解決能力と情報検索能力を評価するために設計された、推論テストと記憶ベースの幻覚テストの 2 つのカテゴリのテストが含まれています。
私たちの調査では、Text Davinci、GPT-3.5、LlaMa-2、MPT、Falcon などの主要な LLM を評価し、パフォーマンスに大きな違いがあることが明らかになりました。
この論文はデータセットに関する詳細な洞察を提供し、透明性と再現性を促進します。
この取り組みを通じて、私たちは医療におけるより安全で信頼性の高い言語モデルの開発に貢献することを目指しています。
私たちのベンチマークは medhalt.github.io にあります。
要約(オリジナル)
This research paper focuses on the challenges posed by hallucinations in large language models (LLMs), particularly in the context of the medical domain. Hallucination, wherein these models generate plausible yet unverified or incorrect information, can have serious consequences in healthcare applications. We propose a new benchmark and dataset, Med-HALT (Medical Domain Hallucination Test), designed specifically to evaluate and reduce hallucinations. Med-HALT provides a diverse multinational dataset derived from medical examinations across various countries and includes multiple innovative testing modalities. Med-HALT includes two categories of tests reasoning and memory-based hallucination tests, designed to assess LLMs’s problem-solving and information retrieval abilities. Our study evaluated leading LLMs, including Text Davinci, GPT-3.5, LlaMa-2, MPT, and Falcon, revealing significant differences in their performance. The paper provides detailed insights into the dataset, promoting transparency and reproducibility. Through this work, we aim to contribute to the development of safer and more reliable language models in healthcare. Our benchmark can be found at medhalt.github.io
arxiv情報
著者 | Logesh Kumar Umapathi,Ankit Pal,Malaikannan Sankarasubbu |
発行日 | 2023-07-28 06:43:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google