NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models

要約

大規模言語モデル (LLM) における幻覚は、特に事実の正確さが重要な一か八かのアプリケーションにおいて、依然として大きな障害となっています。
表現の編集および読み取り方法は幻覚の軽減に進歩を遂げていますが、特殊なツールとドメイン内サンプルでのトレーニングに大きく依存しているため、拡張が難しく、過剰学習が起こりやすくなっています。
これにより、精度の向上と多様なデータセットへの一般化が制限されます。
この論文では、アテンション ヘッド ノルムの未開発の可能性を利用して、ゼロショット多肢選択質問 (MCQ) における事実の精度を劇的に向上させる、軽量な手法であるノルム投票 (NoVo) を紹介します。
NoVo は、わずか 30 個のランダム サンプルを使用した、効率的な推論のみのアルゴリズムを使用して、真実相関の頭部ノルムを自動的に選択することから始まり、NoVo がさまざまなデータセットに簡単に拡張できるようになります。
その後、選択されたヘッド ノルムが単純な投票アルゴリズムに採用され、予測精度が大幅に向上します。
TruthfulQA MC1 では、NoVo は現在の最先端および以前のすべての方法を驚異的なマージンで上回っています (少なくとも 19 精度ポイント)。
NoVo は、20 の多様なデータセットに対する並外れた一般化を示し、その 90% 以上で大幅な向上が見られ、現在のすべての表現編集および読み取り方法をはるかに上回っています。
NoVo はまた、戦略を微調整し、テキストによる敵対的防御を構築することで有望な利益が得られることも明らかにしています。
ヘッド基準を備えた NoVo の有効性は、LLM の解釈可能性、堅牢性、信頼性において新たな境地を開きます。

要約(オリジナル)

Hallucinations in Large Language Models (LLMs) remain a major obstacle, particularly in high-stakes applications where factual accuracy is critical. While representation editing and reading methods have made strides in reducing hallucinations, their heavy reliance on specialised tools and training on in-domain samples, makes them difficult to scale and prone to overfitting. This limits their accuracy gains and generalizability to diverse datasets. This paper presents a lightweight method, Norm Voting (NoVo), which harnesses the untapped potential of attention head norms to dramatically enhance factual accuracy in zero-shot multiple-choice questions (MCQs). NoVo begins by automatically selecting truth-correlated head norms with an efficient, inference-only algorithm using only 30 random samples, allowing NoVo to effortlessly scale to diverse datasets. Afterwards, selected head norms are employed in a simple voting algorithm, which yields significant gains in prediction accuracy. On TruthfulQA MC1, NoVo surpasses the current state-of-the-art and all previous methods by an astounding margin — at least 19 accuracy points. NoVo demonstrates exceptional generalization to 20 diverse datasets, with significant gains in over 90\% of them, far exceeding all current representation editing and reading methods. NoVo also reveals promising gains to finetuning strategies and building textual adversarial defence. NoVo’s effectiveness with head norms opens new frontiers in LLM interpretability, robustness and reliability.

arxiv情報

著者 Zheng Yi Ho,Siyuan Liang,Sen Zhang,Yibing Zhan,Dacheng Tao
発行日 2024-10-11 16:40:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク