Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

要約

検索拡張言語モデル (RALM) は、大規模言語モデルの機能の大幅な進歩を表しており、特に外部の知識ソースを活用することで事実の幻覚を軽減します。
ただし、取得した情報の信頼性が必ずしも保証されているわけではありません。
無関係なデータを取得すると、モデルがクエリに対処するのに十分な情報を持っている場合でも、誤った応答につながる可能性があり、モデルがその固有の知識を見落とす可能性があります。
さらに、標準的な RALM は、正確な答えを提供するために、固有の知識と取得された知識の両方について適切な知識を持っているかどうかを評価するのに苦労することがよくあります。
知識が不足している状況では、答えが得られない場合、これらのシステムは理想的には「不明」と応答する必要があります。
これらの課題に対応して、ノイズの多い無関係なドキュメントに直面したり、未知のシナリオを処理したりする際の RALM の堅牢性を向上させることを目的とした新しいアプローチである Chain-of-Noting (CoN) を導入します。
CoN の中心となるアイデアは、取得した文書の連続した読書メモを生成し、指定された質問との関連性を徹底的に評価し、この情報を統合して最終的な回答を定式化できるようにすることです。
ChatGPT を使用して CoN のトレーニング データを作成し、その後 LLaMa-2 7B モデルでトレーニングしました。
4 つのオープンドメイン QA ベンチマークにわたる実験では、CoN を搭載した RALM が標準の RALM よりも大幅に優れていることがわかりました。
特に、CoN は、完全にノイズの多い検索ドキュメントを考慮した場合の EM スコアで平均 +7.9 の改善を達成し、トレーニング前の知識の範囲外であるリアルタイムの質問の拒否率で +10.5 の改善を達成しました。

要約(オリジナル)

Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with ‘unknown’ when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

arxiv情報

著者 Wenhao Yu,Hongming Zhang,Xiaoman Pan,Kaixin Ma,Hongwei Wang,Dong Yu
発行日 2023-11-15 18:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク