How much do LLMs learn from negative examples?

要約

大規模な言語モデル(LLMS)は、3フェーズトレーニングプロセスを経ます:教師のないトレーニング、監視された微調整(SFT)、および人間のフィードバック(RLHF/DPO)からの学習。
特に、これらのモデルが否定的な例にさらされるのは最終段階でです – クエリに対する誤った、拒否、または最適ではない応答。
このペーパーでは、LLMSのトレーニングにおける否定的な例の役割を掘り下げて、尤度比(LIKRA)モデルを使用して、ベンチマークに応答する多肢選択式の質問に、影響力と否定的な例の量を正確に管理しています。
私たちの調査結果は、3つの重要な洞察を明らかにしています。(1)トレーニングの重要な段階で、否定的な例を持つLikraは、肯定的な例のみを使用してSFTと比較して、トレーニングの例ごとに著しく大きな改善を示しています。
これは、SFTのスムーズで徐々に改善するのとは異なり、LIKRAの学習曲線の急激なジャンプにつながります。
(2)もっともらしいが間違っている(近い)より大きな影響を及ぼす否定的な例。
(3)肯定的な例でトレーニングすることは、もっともらしいが誤った答えの可能性を大幅に減らすことができませんが、否定的な例でトレーニングがそれらをより正確に識別します。
これらの結果は、精度を改善し、LLMSの幻覚を減らす上での否定的な例に潜在的に重要な役割を示しています。

要約(オリジナル)

Large language models (LLMs) undergo a three-phase training process: unsupervised pre-training, supervised fine-tuning (SFT), and learning from human feedback (RLHF/DPO). Notably, it is during the final phase that these models are exposed to negative examples — incorrect, rejected, or suboptimal responses to queries. This paper delves into the role of negative examples in the training of LLMs, using a likelihood-ratio (Likra) model on multiple-choice question answering benchmarks to precisely manage the influence and the volume of negative examples. Our findings reveal three key insights: (1) During a critical phase in training, Likra with negative examples demonstrates a significantly larger improvement per training example compared to SFT using only positive examples. This leads to a sharp jump in the learning curve for Likra unlike the smooth and gradual improvement of SFT; (2) negative examples that are plausible but incorrect (near-misses) exert a greater influence; and (3) while training with positive examples fails to significantly decrease the likelihood of plausible but incorrect answers, training with negative examples more accurately identifies them. These results indicate a potentially significant role for negative examples in improving accuracy and reducing hallucinations for LLMs.

arxiv情報

著者 Shadi Hamdan,Deniz Yuret
発行日 2025-03-18 16:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T50, cs.CL, I.2.6 | How much do LLMs learn from negative examples? はコメントを受け付けていません

From ‘Hallucination’ to ‘Suture’: Insights from Language Philosophy to Enhance Large Language Models

要約

このペーパーでは、言語哲学と精神分析のレンズを通して、大規模な言語モデル(LLMS)の幻覚現象を探ります。
ラカンの「シグニファイアーのチェーン」と「縫合ポイント」の概念を組み込むことにより、アンカーラグフレームワークを幻覚を緩和するための斬新なアプローチとして提案します。
試行錯誤の実験、数学的処方の絶え間ない調整、または質の高い量を強調するリソース集約的な方法への主な依存とは対照的に、私たちのアプローチは、LLMSの幻覚の根本原因を分析するために言語学の基本原則に戻ります。
堅牢な理論的基礎から描画すると、幻覚を減らすのに効果的であるだけでなく、LLMのパフォーマンスを向上させ、出力品質を向上させるアルゴリズムとモデルを導き出します。
このペーパーでは、LLMSでの幻覚を理解するための包括的な理論的枠組みを確立しようとしており、この分野で一般的な「推測」アプローチとラット人種のメンタリティに挑戦することを目指しています。
私たちは、解釈可能なLLMの新しい時代への道を開くことを目指しており、言語ベースのAIシステムの内部の働きに関するより深い洞察を提供します。

要約(オリジナル)

This paper explores hallucination phenomena in large language models (LLMs) through the lens of language philosophy and psychoanalysis. By incorporating Lacan’s concepts of the ‘chain of signifiers’ and ‘suture points,’ we propose the Anchor-RAG framework as a novel approach to mitigate hallucinations. In contrast to the predominant reliance on trial-and-error experiments, constant adjustments of mathematical formulas, or resource-intensive methods that emphasize quantity over quality, our approach returns to the fundamental principles of linguistics to analyze the root causes of hallucinations in LLMs. Drawing from robust theoretical foundations, we derive algorithms and models that are not only effective in reducing hallucinations but also enhance LLM performance and improve output quality. This paper seeks to establish a comprehensive theoretical framework for understanding hallucinations in LLMs and aims to challenge the prevalent ‘guess-and-test’ approach and rat race mentality in the field. We aspire to pave the way for a new era of interpretable LLMs, offering deeper insights into the inner workings of language-based AI systems.

arxiv情報

著者 Qiantong Wang
発行日 2025-03-18 16:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From ‘Hallucination’ to ‘Suture’: Insights from Language Philosophy to Enhance Large Language Models はコメントを受け付けていません

AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models

要約

この研究では、公式のウェブサイトから細心の注意を払って収集された学術環境で、生成AIS(GAIS)と大規模な言語モデル(LLMS)を使用するための80の学術ガイドラインを含むデータセットであるAGGAを紹介します。
データセットには188,674語が含まれており、モデル合成、抽象化の識別、ドキュメント構造評価など、要件エンジニアリングに一般的に適用される自然言語処理タスクの貴重なリソースとして機能します。
さらに、AGGAはさらに注釈を付けて、あいまいさの検出、要件分類、同等の要件の識別など、さまざまなタスクのベンチマークとして機能することができます。
私たちの方法論的に厳密なアプローチにより、6大陸のトップランクの大学を含む多様な世界の機関を代表する大学の選択により、徹底的な調査が保証されました。
データセットは、人文科学、技術、公的機関と民間機関の両方を含むさまざまな学術分野からの視点を捉えており、学界におけるGAIとLLMの統合に関する幅広い洞察を提供します。

要約(オリジナル)

This study introduces AGGA, a dataset comprising 80 academic guidelines for the use of Generative AIs (GAIs) and Large Language Models (LLMs) in academic settings, meticulously collected from official university websites. The dataset contains 188,674 words and serves as a valuable resource for natural language processing tasks commonly applied in requirements engineering, such as model synthesis, abstraction identification, and document structure assessment. Additionally, AGGA can be further annotated to function as a benchmark for various tasks, including ambiguity detection, requirements categorization, and the identification of equivalent requirements. Our methodologically rigorous approach ensured a thorough examination, with a selection of universities that represent a diverse range of global institutions, including top-ranked universities across six continents. The dataset captures perspectives from a variety of academic fields, including humanities, technology, and both public and private institutions, offering a broad spectrum of insights into the integration of GAIs and LLMs in academia.

arxiv情報

著者 Junfeng Jiao,Saleh Afroogh,Kevin Chen,David Atkinson,Amit Dhurandhar
発行日 2025-03-18 16:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models はコメントを受け付けていません

Large Language Models for Virtual Human Gesture Selection

要約

共同スピーチのジェスチャーは、さまざまな意味を伝え、対面の人間の相互作用において重要な役割を果たします。
これらのジェスチャーは、スピーカーに対する宛先、想起、理解、態度に著しく影響を与えます。
同様に、それらは人間と具体化された仮想エージェント間の相互作用に影響を与えます。
したがって、意味のあるジェスチャーを選択してアニメーション化するプロセスは、これらのエージェントの設計に重要な焦点となっています。
ただし、このジェスチャー選択プロセスを自動化することは、大きな課題をもたらします。
以前のジェスチャーの生成技術は、完全に自動化されたデータ駆動型の方法から、文脈的に意味のあるジェスチャーを作成するのに苦労していることが多い、特定のジェスチャーの専門知識を作成し、時間がかかり、一般化が欠けているより手動アプローチまで、さまざまです。
このホワイトペーパーでは、大規模な言語モデルのセマンティック機能を活用して、意味のある適切な共発発点ジェスチャーを示唆するジェスチャー選択アプローチを開発します。
最初に、ジェスチャーに関する情報がGPT-4にエンコードされる方法について説明します。
次に、意味のある、文脈的に関連するジェスチャーを選択し、共同スピーチの発話に適切に整列する能力について、代替プロンプトのアプローチを評価するための研究を実施します。
最後に、このアプローチが仮想エージェントシステム内でどのように実装されているかを詳述し、実証し、選択したジェスチャーの選択とその後のアニメーションを自動化して、ヒトとエージェントの相互作用を強化します。

要約(オリジナル)

Co-speech gestures convey a wide variety of meanings and play an important role in face-to-face human interactions. These gestures significantly influence the addressee’s engagement, recall, comprehension, and attitudes toward the speaker. Similarly, they impact interactions between humans and embodied virtual agents. The process of selecting and animating meaningful gestures has thus become a key focus in the design of these agents. However, automating this gesture selection process poses a significant challenge. Prior gesture generation techniques have varied from fully automated, data-driven methods, which often struggle to produce contextually meaningful gestures, to more manual approaches that require crafting specific gesture expertise and are time-consuming and lack generalizability. In this paper, we leverage the semantic capabilities of Large Language Models to develop a gesture selection approach that suggests meaningful, appropriate co-speech gestures. We first describe how information on gestures is encoded into GPT-4. Then, we conduct a study to evaluate alternative prompting approaches for their ability to select meaningful, contextually relevant gestures and to align them appropriately with the co-speech utterance. Finally, we detail and demonstrate how this approach has been implemented within a virtual agent system, automating the selection and subsequent animation of the selected gestures for enhanced human-agent interactions.

arxiv情報

著者 Parisa Ghanad Torshizi,Laura B. Hensel,Ari Shapiro,Stacy C. Marsella
発行日 2025-03-18 16:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Large Language Models for Virtual Human Gesture Selection はコメントを受け付けていません

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

要約

このペーパーでは、再現可能で費用対効果の高い方法論を使用して長い推論モデルをトレーニングするためのオープンソーススイートであるLight-R1を紹介します。
DeepSeek-R1シリーズで使用されるデータの独自の性質を考えると、パブリックデータとモデルのみを活用する代替アプローチを開発します。
カリキュラムのトレーニングは、データの難易度を徐々に増加させ、トレーニング後のマルチステージと組み合わせています。
QWEN2.5-32B-Instructから訓練されたLight-R1-32Bモデルは、数学の推論でdeepseek-r1-distill-qwen-32bよりも優れています。
実験結果は、このカリキュラムアプローチが異なるトレーニング段階で異なる多様なデータセットが利用可能になった場合、より効果的になることを示しています:微調整deepseek-r1-distilledモデル(独自のデータに関するディープセックチームによって事前に調整された)は、3,000の挑戦的な例で、最先端の7bモデルと14Bモデルをパフォーマンスした14Bモデル、14Bモデル、14Bモデル、14Bモデル、14Bモデル、
QWQ-32BおよびDeepSeek-R1。
さらに、長い推論モデルにGRPOを適用することにより、作業を拡張します。
最終的なLight-R1-14B-DSは、MATHの14BモデルでSOTAパフォーマンスを達成し、それぞれ74.0および60.2のAIME24 \&25スコアで、多くの32BモデルとDeepSeek-R1-Distill-Lalama-70Bを上回ります。
数学に焦点を当てたトレーニングにもかかわらず、Light-R1-14B-DSは強力なクロスドメインの一般化を示しています。
Light-R1は、洗練された推論モデルを実際のアプリケーションでよりアクセスしやすく実装可能にすることにおける重要な進歩を表しています。
私たちのモデル、トレーニングデータ、およびコードは、https://github.com/qihoo360/light-r1で利用可能になりました。

要約(オリジナル)

This paper introduces Light-R1, an open-source suite for training long reasoning models using reproducible and cost-effective methodology. Given the proprietary nature of data used in the DeepSeek-R1 series, we develop an alternative approach leveraging exclusively public data and models. Our curriculum training progressively increases data difficulty, combined with multi-staged post-training. Our Light-R1-32B model, trained from Qwen2.5-32B-Instruct, outperforms DeepSeek-R1-Distill-Qwen-32B in math reasoning. Experimental results show that this curriculum approach becomes more effective when distinct, diverse datasets are available for different training stages: fine-tuning DeepSeek-R1-Distilled models (pre-tuned by DeepSeek team on proprietary data) with 3,000 challenging examples from our curriculum dataset yielded state-of-the-art 7B and 14B models, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying GRPO on long reasoning models. Our final Light-R1-14B-DS achieves SOTA performance among 14B models in math, with AIME24 \& 25 scores of 74.0 and 60.2 respectively, surpassing many 32B models and DeepSeek-R1-Distill-Llama-70B. Despite math-focused training, Light-R1-14B-DS demonstrates strong cross-domain generalization. Light-R1 represents a significant advancement in making sophisticated reasoning models more accessible and implementable in real-world applications. Our models, training data and code have been made available at https://github.com/Qihoo360/Light-R1.

arxiv情報

著者 Liang Wen,Yunke Cai,Fenrui Xiao,Xin He,Qi An,Zhenyu Duan,Yimin Du,Junchen Liu,Lifu Tang,Xiaowei Lv,Haosheng Zou,Yongchao Deng,Shousheng Jia,Xiangzheng Zhang
発行日 2025-03-18 17:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond はコメントを受け付けていません

Splintering Nonconcatenative Languages for Better Tokenization

要約

BPEやUnigramlmなどの一般的なサブワードトークン化アルゴリズムは、連結対策だけでテキストを意味のあるユニットに分割できると想定しています。
これは、形態がルートテンプレートパターンでエンコードされているヘブライ語やアラビア語などの言語、または分割接フが一般的なマレー語とジョージアンなどの言語には当てはまりません。
スプリンターを提示します。これは、テキストをそのような非con菌形態をよりよく表す線形形式に再配置し、トークン剤によって見つかる意味のある隣接セグメントを可能にします。
ヘブライ語、アラビア語、マレー語のトークン語彙を評価する本質的な措置の両方を使用して、Splinterのメリットを実証します。
ヘブライ語のために訓練されたBert-Architectureモデルを使用した下流のタスクと同様に。

要約(オリジナル)

Common subword tokenization algorithms like BPE and UnigramLM assume that text can be split into meaningful units by concatenative measures alone. This is not true for languages such as Hebrew and Arabic, where morphology is encoded in root-template patterns, or Malay and Georgian, where split affixes are common. We present SPLINTER, a pre-processing step which rearranges text into a linear form that better represents such nonconcatenative morphologies, enabling meaningful contiguous segments to be found by the tokenizer. We demonstrate SPLINTER’s merit using both intrinsic measures evaluating token vocabularies in Hebrew, Arabic, and Malay; as well as on downstream tasks using BERT-architecture models trained for Hebrew.

arxiv情報

著者 Bar Gazit,Shaltiel Shmidman,Avi Shmidman,Yuval Pinter
発行日 2025-03-18 17:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Splintering Nonconcatenative Languages for Better Tokenization はコメントを受け付けていません

Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention

要約

多くのショット内の学習学習は、最近、複数のタスクで同じモデルを提供できるという主要な利点をもたらす微調整の代替として有望であることを示しています。
ただし、これにより、計算の負担がトレーニング時間から推論時間にシフトし、多くのショットICLの展開が実践を正当化するのに挑戦します。
このコストは、推論の例ごとにカスタムデモセットが取得された場合、さらに増加し​​ます。
検索ベースの多くのショット内コンテキスト学習のためのトレーニングフリーのフレームワークである動的ブロックスパースの注意を紹介します。
慎重に設計されたブロックスパースの注意とキャッシュされたデモンストレーショングループの検索を組み合わせることにより、強力なICLとフィニティングベースラインにわたる最良の方法の精度の平均を平均して維持しながら、微調整に匹敵する速度ごとの遅延を達成します。
これにより、さらに多くのショットICLが大規模に展開できるようになることを願っています。

要約(オリジナル)

Many-shot in-context learning has recently shown promise as an alternative to finetuning, with the major advantage that the same model can be served for multiple tasks. However, this shifts the computational burden from training-time to inference-time, making deployment of many-shot ICL challenging to justify in-practice. This cost is further increased if a custom demonstration set is retrieved for each inference example. We present Dynamic Block-Sparse Attention, a training-free framework for retrieval-based many-shot in-context learning. By combining carefully designed block-sparse attention and retrieval of cached groups of demonstrations, we achieve comparable per-example latency to finetuning while maintaining on average >95% of the best method’s accuracy across strong ICL and finetuning baselines. We hope that this will further enable the deployment of many-shot ICL at scale.

arxiv情報

著者 Emily Xiao,Chin-Jou Li,Yilin Zhang,Graham Neubig,Amanda Bertsch
発行日 2025-03-18 17:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention はコメントを受け付けていません

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

要約

推論スケーリングは、LLMSが前例のない推論能力を備えており、複雑な推論を引き出すコアテクニックとして強化学習を備えています。
ただし、最先端の推論LLMの主要な技術的詳細は隠されています(Openai O1ブログやDeepseek R1テクニカルレポートなど)。したがって、コミュニティはRLトレーニング結果を再現するのに苦労しています。
$ \ textbf {d} $ ecoupledクリップと$ \ textbf {d} $ ynamic s $ \ textbf {a} $ mpling $ \ textbf {p} $ \ textbf {o} $ ptimization($ \ textbf {dapo} $ a agorithm n.
QWEN2.5-32Bベースモデルを使用して、AIME 2024で50ポイントを達成する最先端の大規模RLシステム。
トレーニングの詳細を差し控えた以前の作品とは異なり、大規模なLLM RLを成功させるアルゴリズムの4つの重要な手法を紹介します。
さらに、Verlフレームワークに基づいて構築されたトレーニングコードと、慎重にキュレーションされ、処理されたデータセットがオープンソースをかけます。
オープンソースシステムのこれらのコンポーネントは、再現性を高め、大規模なLLM RLの将来の研究をサポートします。

要約(オリジナル)

Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the $\textbf{D}$ecoupled Clip and $\textbf{D}$ynamic s$\textbf{A}$mpling $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{DAPO}$) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

arxiv情報

著者 Qiying Yu,Zheng Zhang,Ruofei Zhu,Yufeng Yuan,Xiaochen Zuo,Yu Yue,Tiantian Fan,Gaohong Liu,Lingjun Liu,Xin Liu,Haibin Lin,Zhiqi Lin,Bole Ma,Guangming Sheng,Yuxuan Tong,Chi Zhang,Mofan Zhang,Wang Zhang,Hang Zhu,Jinhua Zhu,Jiaze Chen,Jiangjie Chen,Chengyi Wang,Hongli Yu,Weinan Dai,Yuxuan Song,Xiangpeng Wei,Hao Zhou,Jingjing Liu,Wei-Ying Ma,Ya-Qin Zhang,Lin Yan,Mu Qiao,Yonghui Wu,Mingxuan Wang
発行日 2025-03-18 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DAPO: An Open-Source LLM Reinforcement Learning System at Scale はコメントを受け付けていません

LLMs as Models for Analogical Reasoning

要約

類似の推論 – 異なるドメイン間の構造的関係を特定してマッピングする能力は、人間の認知と学習に基づいています。
最近の研究では、大規模な言語モデル(LLM)が、類似の推論タスクで人間と一致することがあり、類似の推論がドメインの一般的なプロセスから出現する可能性を開きます。
しかし、これらの緊急能力が主に表面的であり、トレーニング中に見られる単純な関係に限定されているのか、それとも類似性の主要な認知モデルの焦点である柔軟な表現およびマッピング機能を網羅するのかどうかはまだ議論されています。
この研究では、参加者が意味的に満足した単語と文字のシーケンス、その他の抽象的な文字の間でマッピングする必要がある新しい類推タスクを紹介します。
このタスクは、人間の類推の中心であることが知られているが、これまでのところ既存の認知理論とモデルによって十分にキャプチャされていないことが知られている豊かなセマンティック情報を柔軟に再表現する能力を必要とします。
セマンティック構造とセマンティックコンテンツからの推論に焦点を当てたタスクで、人間の参加者とLLMの両方のパフォーマンスを評価し、類似の推論の堅牢性をテストするバリエーションを導入します。
高度なLLMSは、いくつかの条件で人間のパフォーマンスと一致しますが、人間とLLMは特定のタスクのバリエーションやセマンティックディストラクタに対して異なって反応します。
したがって、我々の結果は、LLMが既存の理論によってまだうまくモデル化されていないコンテキストで人間の類似の推論の可能性があることを提供するかもしれないという新しい証拠を提供しますが、今日の最高のモデルでさえ、どのように行動的に説明をもたらす可能性は低いということです。

要約(オリジナル)

Analogical reasoning-the capacity to identify and map structural relationships between different domains-is fundamental to human cognition and learning. Recent studies have shown that large language models (LLMs) can sometimes match humans in analogical reasoning tasks, opening the possibility that analogical reasoning might emerge from domain general processes. However, it is still debated whether these emergent capacities are largely superficial and limited to simple relations seen during training or whether they rather encompass the flexible representational and mapping capabilities which are the focus of leading cognitive models of analogy. In this study, we introduce novel analogical reasoning tasks that require participants to map between semantically contentful words and sequences of letters and other abstract characters. This task necessitates the ability to flexibly re-represent rich semantic information-an ability which is known to be central to human analogy but which is thus far not well-captured by existing cognitive theories and models. We assess the performance of both human participants and LLMs on tasks focusing on reasoning from semantic structure and semantic content, introducing variations that test the robustness of their analogical inferences. Advanced LLMs match human performance across several conditions, though humans and LLMs respond differently to certain task variations and semantic distractors. Our results thus provide new evidence that LLMs might offer a how-possibly explanation of human analogical reasoning in contexts that are not yet well modeled by existing theories, but that even today’s best models are unlikely to yield how-actually explanations.

arxiv情報

著者 Sam Musker,Alex Duchnowski,Raphaël Millière,Ellie Pavlick
発行日 2025-03-18 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMs as Models for Analogical Reasoning はコメントを受け付けていません

Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations

要約

LLMは、虚偽の主張をするときにも断定的な言語スタイルを採用することがよくあります。
このような「自信過剰幻覚」 ‘ユーザーを誤解させ、信頼を侵食します。
したがって、言語で表現する能力を達成することは、主張に関する実際の不確実性の程度を非常に重要です。
「言葉による不確実性」は、LLMSの表現空間における単一の線形特徴によって支配されていることがわかり、これがモデルの実際の「セマンティック不確実性」と中程度の相関があることを示しています。
この洞察を適用し、(1)意味的不確実性と言葉による不確実性の不一致は、セマンティックの不確実性だけよりも幻覚のより良い予測因子であり、(2)推論時間で口頭の不確実性に介入し、短い形式の回答で幻覚を減らし、平均相対的な減少を達成することができることを示します。

要約(オリジナル)

LLMs often adopt an assertive language style also when making false claims. Such “overconfident hallucinations” mislead users and erode trust. Achieving the ability to express in language the actual degree of uncertainty around a claim is therefore of great importance. We find that “verbal uncertainty” is governed by a single linear feature in the representation space of LLMs, and show that this has only moderate correlation with the actual “semantic uncertainty” of the model. We apply this insight and show that (1) the mismatch between semantic and verbal uncertainty is a better predictor of hallucinations than semantic uncertainty alone and (2) we can intervene on verbal uncertainty at inference time and reduce hallucinations on short-form answers, achieving an average relative reduction of 32%.

arxiv情報

著者 Ziwei Ji,Lei Yu,Yeskendir Koishekenov,Yejin Bang,Anthony Hartshorn,Alan Schelten,Cheng Zhang,Pascale Fung,Nicola Cancedda
発行日 2025-03-18 17:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations はコメントを受け付けていません