Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback

要約

ChatGPT などの大規模言語モデル (LLM) は、タスク指向のダイアログや質問応答など、多くのダウンストリーム タスクに対して人間のような流暢な応答を生成できます。
ただし、LLM を現実世界のミッションクリティカルなアプリケーションに適用することは、主に幻覚を生成する傾向があり、外部の知識を使用できないため、依然として困難なままです。
この論文では、プラグアンドプレイモジュールのセットでブラックボックスLLMを拡張するLLM-Augmenterシステムを提案します。
私たちのシステムは、LLM に外部の知識に基づいた応答を生成させます。たとえば、タスク固有のデータベースに保存されます。
また、効用関数によって生成されたフィードバック (LLM によって生成された応答の事実スコアなど) を使用してモデル応答を改善するために、LLM プロンプトを繰り返し修正します。
LLM-Augmenter の有効性は、タスク指向の対話とオープン ドメインの質問応答という 2 種類のシナリオで経験的に検証されています。
LLM-Augmenter は、応答の流暢さと有益性を犠牲にすることなく、ChatGPT の幻覚を大幅に軽減します。
ソースコードとモデルを公開しています。

要約(オリジナル)

Large language models (LLMs), such as ChatGPT, are able to generate human-like, fluent responses for many downstream tasks, e.g., task-oriented dialog and question answering. However, applying LLMs to real-world, mission-critical applications remains challenging mainly due to their tendency to generate hallucinations and their inability to use external knowledge. This paper proposes a LLM-Augmenter system, which augments a black-box LLM with a set of plug-and-play modules. Our system makes the LLM generate responses grounded in external knowledge, e.g., stored in task-specific databases. It also iteratively revises LLM prompts to improve model responses using feedback generated by utility functions, e.g., the factuality score of a LLM-generated response. The effectiveness of LLM-Augmenter is empirically validated on two types of scenarios, task-oriented dialog and open-domain question answering. LLM-Augmenter significantly reduces ChatGPT’s hallucinations without sacrificing the fluency and informativeness of its responses. We make the source code and models publicly available.

arxiv情報

著者 Baolin Peng,Michel Galley,Pengcheng He,Hao Cheng,Yujia Xie,Yu Hu,Qiuyuan Huang,Lars Liden,Zhou Yu,Weizhu Chen,Jianfeng Gao
発行日 2023-03-08 23:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク