Can AI Assistants Know What They Don’t Know?

要約

最近、大規模言語モデル (LLM) に基づく AI アシスタントは、対話、数学の問題の解決、コードの作成、ツールの使用など、多くのタスクで驚くべきパフォーマンスを示しています。
LLM は世界の知識を集中的に持っていますが、オープンドメインの質問応答など、知識を集中的に扱うタスクに直面すると、依然として事実誤認を犯します。
AI アシスタントからのこうした虚偽の応答は、実際のアプリケーションにおいて重大なリスクを引き起こす可能性があります。
私たちは、AI アシスタントが知らない質問への回答を拒否することが、幻覚を減らし、アシスタントを真実にするための重要な方法であると信じています。
そこで本論文では、「AIアシスタントは自分たちが知らないことを知り、それを自然言語で表現できるのか?」という疑問を投げかけます。
この質問に答えるために、既存のオープンドメインの質問応答データセットに基づいて、既知の質問と未知の質問を含むアシスタント用のモデル固有の「わからない」(Idk) データセットを構築します。
次に、アシスタントを対応する Idk データセットと調整し、調整後に未知の質問への回答を拒否できるかどうかを観察します。
実験結果は、Idk データセットとの調整後、アシスタントはほとんどの未知の質問への回答を拒否できることを示しています。
彼らが答えようとする質問については、調整前よりも精度が大幅に高くなっています。

要約(オリジナル)

Recently, AI assistants based on large language models (LLMs) show surprising performance in many tasks, such as dialogue, solving math problems, writing code, and using tools. Although LLMs possess intensive world knowledge, they still make factual errors when facing some knowledge intensive tasks, like open-domain question answering. These untruthful responses from the AI assistant may cause significant risks in practical applications. We believe that an AI assistant’s refusal to answer questions it does not know is a crucial method for reducing hallucinations and making the assistant truthful. Therefore, in this paper, we ask the question ‘Can AI assistants know what they don’t know and express them through natural language?’ To answer this question, we construct a model-specific ‘I don’t know’ (Idk) dataset for an assistant, which contains its known and unknown questions, based on existing open-domain question answering datasets. Then we align the assistant with its corresponding Idk dataset and observe whether it can refuse to answer its unknown questions after alignment. Experimental results show that after alignment with Idk datasets, the assistant can refuse to answer most its unknown questions. For questions they attempt to answer, the accuracy is significantly higher than before the alignment.

arxiv情報

著者 Qinyuan Cheng,Tianxiang Sun,Xiangyang Liu,Wenwei Zhang,Zhangyue Yin,Shimin Li,Linyang Li,Kai Chen,Xipeng Qiu
発行日 2024-01-24 07:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク