Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method

要約

大規模言語モデル (LLM) は、自然言語処理 (NLP) タスクにおいて大きな可能性を示しています。
しかし、最近の文献では、LLM が非事実の応答を断続的に生成し、それがさらなる利用に対する LLM の信頼性を妨げていることを明らかにしています。
この論文では、LLM が知らないどの質問が事実と異なる結果を生成する傾向があるかを検出するための新しい自己検出方法を提案します。
具体的には、まず、与えられた質問に対する文章表現を多様化し、それに対応する回答を収集します。
次に、生成された回答間の相違を調べて、モデルが虚偽を生成する可能性のある質問を特定します。
上記の手順はすべて、他の外部リソースを参照せずに、LLM 自体にプロンプ​​トを表示することで実行できます。
私たちは包括的な実験を実施し、最近リリースされた LLM (Vicuna、ChatGPT、GPT-4 など) に対するメソッドの有効性を実証します。

要約(オリジナル)

Large Language Models (LLMs) have shown great potential in Natural Language Processing (NLP) tasks. However, recent literature reveals that LLMs generate nonfactual responses intermittently, which impedes the LLMs’ reliability for further utilization. In this paper, we propose a novel self-detection method to detect which questions that a LLM does not know that are prone to generate nonfactual results. Specifically, we first diversify the textual expressions for a given question and collect the corresponding answers. Then we examine the divergencies between the generated answers to identify the questions that the model may generate falsehoods. All of the above steps can be accomplished by prompting the LLMs themselves without referring to any other external resources. We conduct comprehensive experiments and demonstrate the effectiveness of our method on recently released LLMs, e.g., Vicuna, ChatGPT, and GPT-4.

arxiv情報

著者 Yukun Zhao,Lingyong Yan,Weiwei Sun,Guoliang Xing,Chong Meng,Shuaiqiang Wang,Zhicong Cheng,Zhaochun Ren,Dawei Yin
発行日 2024-03-21 10:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク