Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators

要約

大規模言語モデル (LLM) は、その優れた機能にもかかわらず、検証可能な事実に反する応答、つまり不誠実な幻覚コンテンツを生成する傾向があります。
既存の取り組みは一般に、モデル パラメーターの最適化やセマンティック表現の編集に焦点を当てており、ターゲット LLM の内部事実知識が損なわれます。
さらに、幻覚は通常、下流のタスクで多面的なパターンを示し、タスク全体にわたるモデルの総合的なパフォーマンスが制限されます。
この論文では、幻覚応答を軽減するためのコンパレータ駆動のデコード時間 (CDT) フレームワークを提案します。
まず、マルチタスクの微調整サンプルを使用して、幻覚と真実のコンパレーターを構築します。
この場合、個別のタスク命令内のさまざまな幻覚または真実性のパターンを捕捉する対応するコンパレーターの能力を強化するための、命令プロトタイプに基づいた専門家の混合戦略を提示します。
CDT は、ターゲット LLM とこれらのコンパレータの間のロジット差を対比することにより、ネクスト トークンの予測を事実に忠実な分布に制限します。
複数の下流タスクに関する体系的な実験は、私たちのフレームワークがモデルのパフォーマンスと応答の事実性を大幅に改善できることを示しています。

要約(オリジナル)

Despite their remarkable capabilities, Large Language Models (LLMs) are prone to generate responses that contradict verifiable facts, i.e., unfaithful hallucination content. Existing efforts generally focus on optimizing model parameters or editing semantic representations, which compromise the internal factual knowledge of target LLMs. In addition, hallucinations typically exhibit multifaceted patterns in downstream tasks, limiting the model’s holistic performance across tasks. In this paper, we propose a Comparator-driven Decoding-Time (CDT) framework to alleviate the response hallucination. Firstly, we construct hallucinatory and truthful comparators with multi-task fine-tuning samples. In this case, we present an instruction prototype-guided mixture of experts strategy to enhance the ability of the corresponding comparators to capture different hallucination or truthfulness patterns in distinct task instructions. CDT constrains next-token predictions to factuality-robust distributions by contrasting the logit differences between the target LLMs and these comparators. Systematic experiments on multiple downstream tasks show that our framework can significantly improve the model performance and response factuality.

arxiv情報

著者 Dingkang Yang,Dongling Xiao,Jinjie Wei,Mingcheng Li,Zhaoyu Chen,Ke Li,Lihua Zhang
発行日 2024-09-09 13:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク