Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models

要約

大規模言語モデル (LLM) は、自然言語の生成とそれに続く命令において顕著な可能性を示していますが、その出力に対する信頼を損なう「幻覚」に対する感受性が永続的な課題となっています。
不確実性定量化 (UQ) は有望なソリューションを提供しますが、LLM のコンテキスト内での正確な実装には依然として大きなハードルがあります。
この重大な障害に対処するために、私たちの研究は基本的なヒューリスティックな洞察に基づいています。つまり、自己回帰 LLM によって生成されたテキスト内のトークンは、根底にある意味を等しく反映しているわけではありません。
一部のトークンは、「言語的冗長性」の現象により、他のトークンよりも高い関連性と代表性を持ちます。つまり、選ばれた少数のキーワードで長い文の本質を伝えるのに十分です。
残念なことに、既存の方法論は、不確実性を推定する際に、これらの固有の生成的不平等を無視して、すべてのトークンを同等の重要性で扱います。
私たちの分析では、最先端技術に関する重大な問題が明らかになりました。つまり、意味論的な重要性が限られた多数のトークン (および文) が、不確実性の推定中に同等または過剰な重み付けを受けているということです。
このバイアスを修正するために、不確実性を正確に推定するために、トークン レベルと文レベルの両方で、より関連性の高い (SAR) コンポーネントへの注意を共同でシフトすることを提案します。
私たちは、Vicuna、WizardLM、LLaMA-2-chat などの命令調整 LLM や、モデル サイズを拡張した OPT や LLaMA などの事前トレーニング済み LLM を含む、さまざまな人気の「既製」LLM を含む広範な実験を実施しています。
最大 33B のパラメータ。
読解力、科学Q&A、医療Q&Aなど、さまざまな自由形式の質疑応答課題で評価を実施します。
私たちの実験結果は、LLM の領域内での不確実性推定の課題に対処する際の SAR の優れたパフォーマンスを示しています。

要約(オリジナル)

While Large Language Models (LLMs) have demonstrated remarkable potential in natural language generation and instruction following, a persistent challenge lies in their susceptibility to ‘hallucinations’, which erodes trust in their outputs. Although Uncertainty Quantification (UQ) presents a promising solution, its accurate implementation within the context of LLMs remains a significant hurdle. To address this critical roadblock, our research originates from a fundamental heuristic insight: tokens within auto-regressive LLM-generated text do not equally reflect the underlying meaning. Some tokens carry greater relevance and representativeness than others, owing to the phenomenon of ‘linguistic redundancy’, wherein a select few keywords suffice to convey the essence of lengthy sentences. Regrettably, existing methodologies treat all tokens with equal importance when estimating uncertainty, disregarding these inherent generative inequalities. Our analysis reveals a significant issue with state-of-the-art: numerous tokens (and sentences) of limited semantic significance receive equal or even excessive weighting during uncertainty estimation. To rectify this bias, we propose to jointly Shifting Attention to more Relevant (SAR) components, at both the token- and the sentence-levels for accurate uncertainty estimation. We conduct extensive experiments involving a range of popular ‘off-the-shelf’ LLMs, including instruction-tuned LLMs such as Vicuna, WizardLM, and LLaMA-2-chat, as well as pretrained LLMs like OPT and LLaMA, with model sizes extending up to 33B parameters. We carry out evaluation across various free-form question-answering tasks, encompassing domains such as reading comprehension, science Q&A, and medical Q&A. Our experimental results demonstrate the superior performance of SAR in addressing the challenges of uncertainty estimation within the realm of LLMs.

arxiv情報

著者 Jinhao Duan,Hao Cheng,Shiqi Wang,Alex Zavalny,Chenan Wang,Renjing Xu,Bhavya Kailkhura,Kaidi Xu
発行日 2023-10-09 14:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク