要約
自然言語生成における大規模言語モデル (LLM) の成功にもかかわらず、LLM が不正確または無意味なテキストを生成する可能性があることを示す証拠が数多くあります。
この制限は、特に安全性が重要な領域において、いつ LLM を信頼するかを見極めることの重要性を強調しています。
上位 k 個の応答を誘導したり、複数の応答をサンプリングして集計したりすることで、信頼性を言語化して信頼性を伝えることに依存する既存の方法は、信頼性の客観的な指針が欠如しているため、失敗することがよくあります。
これに対処するために、調整された二成分報酬関数による強化学習を活用した、CONfidence-Quality-ORDerpreserving alignment approach (CONQORD) を提案します。
この関数には、品質報酬関数と順序維持アラインメント報酬関数が含まれます。
具体的には、順序維持報酬は、信頼性と品質の順序を調整するために、より質の高い応答に対するより大きな信頼性を言語化するようモデルにインセンティブを与えます。
実験では、CONQORD がモデルを過度に慎重になることなく、信頼水準と応答精度の間の調整パフォーマンスを大幅に向上させることが実証されました。
さらに、CONQORD によって提供される調整された信頼は、いつ LLM を信頼すべきかを知らせ、外部知識の検索プロセスを開始するための決定要因として機能します。
信頼性と応答の品質を一致させることで、より透明性と信頼性の高い応答が保証され、信頼性が向上します。
要約(オリジナル)
Despite the success of large language models (LLMs) in natural language generation, much evidence shows that LLMs may produce incorrect or nonsensical text. This limitation highlights the importance of discerning when to trust LLMs, especially in safety-critical domains. Existing methods, which rely on verbalizing confidence to tell the reliability by inducing top-k responses and sampling-aggregating multiple responses, often fail, due to the lack of objective guidance of confidence. To address this, we propose CONfidence-Quality-ORDerpreserving alignment approach (CONQORD), leveraging reinforcement learning with a tailored dual-component reward function. This function encompasses quality reward and orderpreserving alignment reward functions. Specifically, the order-preserving reward incentivizes the model to verbalize greater confidence for responses of higher quality to align the order of confidence and quality. Experiments demonstrate that our CONQORD significantly improves the alignment performance between confidence levels and response accuracy, without causing the model to become over-cautious. Furthermore, the aligned confidence provided by CONQORD informs when to trust LLMs, and acts as a determinant for initiating the retrieval process of external knowledge. Aligning confidence with response quality ensures more transparent and reliable responses, providing better trustworthiness.
arxiv情報
著者 | Shuchang Tao,Liuyi Yao,Hanxing Ding,Yuexiang Xie,Qi Cao,Fei Sun,Jinyang Gao,Huawei Shen,Bolin Ding |
発行日 | 2024-04-26 09:42:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google