Evaluating Large Language Models for Health-related Queries with Presuppositions

要約

企業が自社の検索サービスへの大規模言語モデル (LLM) の統合を急ぐ中、ユーザーが表明するあらゆる前提に対して堅牢で、事実に基づいて正確な情報を提供することが重要です。
この研究では、さまざまな程度の前提条件を持つ健康関連のクエリで構成されるデータセットである UPHILL を紹介します。
UPHILL を使用して、InstructGPT、ChatGPT、および BingChat モデルの事実の正確さと一貫性を評価します。
モデル回答が真の健康主張 (質問として提示されたもの) に同意しないことはめったにありませんが、虚偽の主張に異議を唱えることはできないことがよくあります。InstructGPT からの回答は虚偽の主張の 32% に同意し、ChatGPT は 26%、BingChat は 23% に同意しました。
入力クエリの前提条件の範囲を増やすと、InstructGPT と ChatGPT からの応答は、その真実性に関係なく、その主張に一致することがかなり多くなります。
取得した Web ページに依存する BingChat からの応答は、それほど影響を受けません。
事実の精度が中程度であること、およびモデルが誤った仮定を一貫して修正できないことを考慮すると、私たちの作業では、一か八かのシナリオで使用する現在の LLM を慎重に評価する必要があります。

要約(オリジナル)

As corporations rush to integrate large language models (LLMs) to their search offerings, it is critical that they provide factually accurate information that is robust to any presuppositions that a user may express. In this work, we introduce UPHILL, a dataset consisting of health-related queries with varying degrees of presuppositions. Using UPHILL, we evaluate the factual accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find that while model responses rarely disagree with true health claims (posed as questions), they often fail to challenge false claims: responses from InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%. As we increase the extent of presupposition in input queries, the responses from InstructGPT and ChatGPT agree with the claim considerably more often, regardless of its veracity. Responses from BingChat, which rely on retrieved webpages, are not as susceptible. Given the moderate factual accuracy, and the inability of models to consistently correct false assumptions, our work calls for a careful assessment of current LLMs for use in high-stakes scenarios.

arxiv情報

著者 Navreet Kaur,Monojit Choudhury,Danish Pruthi
発行日 2023-12-14 10:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク