Sufficient conditions for offline reactivation in recurrent neural networks

要約

睡眠などの静止期間中、多くの脳回路での神経活動は、タスクエンゲージメントの期間中に観察されたものに似ています。
ただし、タスクが最適化されたネットワークがオンライン行動の原因となる同じネットワーク状態を自律的に再現できる正確な条件はよく理解されていません。
この研究では、スムーズに変化する刺激の特徴をコードする回路での神経再活性化の出現に十分な条件を概説する数学的枠組みを開発します。
変化ベースの感覚情報を使用して環境状態変数を追跡するために最適化された騒々しい再発ネットワークが自然に除去ダイナミクスを開発することを数学的に実証します。
2つの標準的な神経科学タスクの数値実験を使用して、自己運動のキューに基づく空間的位置推定と、角度速度キューに基づく頭方向の推定を使用して、調査結果を検証します。
全体として、私たちの研究は、ノイズの多いニューラル回路におけるタスクの最適化の緊急の結果として、オフライン再活性化をモデル化するための理論的サポートを提供します。

要約(オリジナル)

During periods of quiescence, such as sleep, neural activity in many brain circuits resembles that observed during periods of task engagement. However, the precise conditions under which task-optimized networks can autonomously reactivate the same network states responsible for online behavior is poorly understood. In this study, we develop a mathematical framework that outlines sufficient conditions for the emergence of neural reactivation in circuits that encode features of smoothly varying stimuli. We demonstrate mathematically that noisy recurrent networks optimized to track environmental state variables using change-based sensory information naturally develop denoising dynamics, which, in the absence of input, cause the network to revisit state configurations observed during periods of online activity. We validate our findings using numerical experiments on two canonical neuroscience tasks: spatial position estimation based on self-motion cues, and head direction estimation based on angular velocity cues. Overall, our work provides theoretical support for modeling offline reactivation as an emergent consequence of task optimization in noisy neural circuits.

arxiv情報

著者 Nanda H. Krishna,Colin Bredenberg,Daniel Levenstein,Blake A. Richards,Guillaume Lajoie
発行日 2025-05-22 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, q-bio.NC | Sufficient conditions for offline reactivation in recurrent neural networks はコメントを受け付けていません

Understanding and Analyzing Inappropriately Targeting Language in Online Discourse: A Comparative Annotation Study

要約

このペーパーでは、群衆と専門家の注釈をChatGPTと統合することにより、オンライン会話で言語を不適切にターゲットにする方法を紹介します。
Redditの英語の会話スレッドに焦点を当て、個人またはグループをターゲットにするコメントを調べます。
私たちのアプローチには、さまざまなターゲットカテゴリの多様なデータセットと、会話コンテキスト内の特定のターゲット単語の多様なデータセットをラベル付けする包括的なアノテーションフレームワークが含まれます。
私たちは、人間の専門家、群衆の出版者、およびChatGPTからの注釈の比較分析を実行し、明示的なヘイトスピーチと微妙な差別言語の両方を認識する際に、各方法の強みと制限を明らかにします。
私たちの調査結果は、ヘイトスピーチを特定し、社会的信念や身体イメージなどのターゲティングの新しいカテゴリを明らかにする際の文脈的要因の重要な役割を強調しています。
また、注釈に伴う課題と主観的な判断、および微妙な言語を把握するためのChatGPTの限界にも取り組みます。
この研究は、オンラインの安全性と包括性を高めるために、自動化されたコンテンツモデレーション戦略を改善するための洞察を提供します。

要約(オリジナル)

This paper introduces a method for detecting inappropriately targeting language in online conversations by integrating crowd and expert annotations with ChatGPT. We focus on English conversation threads from Reddit, examining comments that target individuals or groups. Our approach involves a comprehensive annotation framework that labels a diverse data set for various target categories and specific target words within the conversational context. We perform a comparative analysis of annotations from human experts, crowd annotators, and ChatGPT, revealing strengths and limitations of each method in recognizing both explicit hate speech and subtler discriminatory language. Our findings highlight the significant role of contextual factors in identifying hate speech and uncover new categories of targeting, such as social belief and body image. We also address the challenges and subjective judgments involved in annotation and the limitations of ChatGPT in grasping nuanced language. This study provides insights for improving automated content moderation strategies to enhance online safety and inclusivity.

arxiv情報

著者 Baran Barbarestani,Isa Maks,Piek Vossen
発行日 2025-05-22 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Understanding and Analyzing Inappropriately Targeting Language in Online Discourse: A Comparative Annotation Study はコメントを受け付けていません

Nested Named Entity Recognition as Single-Pass Sequence Labeling

要約

私たちは、選挙区の構造を直線化する以前の作業を活用して、この構造化された予測問題の複雑さを簡単なトークン分類に効果的に削減することにより、ネストされたエンティティ認識(NNER)をシーケンスラベル付けタスクとしてキャストします。
これらの選挙区の線形化を前処理されたエンコーダーと組み合わせることにより、当社のメソッドは、正確に$ n $のタグ付けアクションを実行しながら、ネストされたエンティティをキャプチャします。
私たちのアプローチは、効率の低いシステムと比較して競争力のあるパフォーマンスを実現し、既製のシーケンスラベル表示ライブラリを使用してトレーニングできます。

要約(オリジナル)

We cast nested named entity recognition (NNER) as a sequence labeling task by leveraging prior work that linearizes constituency structures, effectively reducing the complexity of this structured prediction problem to straightforward token classification. By combining these constituency linearizations with pretrained encoders, our method captures nested entities while performing exactly $n$ tagging actions. Our approach achieves competitive performance compared to less efficient systems, and it can be trained using any off-the-shelf sequence labeling library.

arxiv情報

著者 Alberto Muñoz-Ortiz,David Vilares,Caio COrro,Carlos Gómez-Rodríguez
発行日 2025-05-22 16:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 | Nested Named Entity Recognition as Single-Pass Sequence Labeling はコメントを受け付けていません

Comparative analysis of subword tokenization approaches for Indian languages

要約

トークン化とは、マシンが処理しやすい小さな部品またはトークンにテキストを分解する行為です。
これは、機械翻訳(MT)モデルの重要な段階です。
サブワードトークン化は、単語をより小さなサブワード単位に分解することによりこのプロセスを強化します。これは、複雑な形態または広大な語彙を持つ言語で特に有益です。
これは、接頭辞、接尾辞、その他の形態学的なバリエーションなど、インド語(IL)の単語の複雑な構造をキャプチャするのに役立ちます。
これらの言語は、凝集構造を頻繁に使用します。この構造では、接尾辞、接頭辞、茎などの複数の形態素の組み合わせによって単語が形成されます。
その結果、これらのシナリオに対処するために、適切なトークン化戦略を選択する必要があります。
このホワイトペーパーでは、文章、バイトペアエンコード(BPE)、およびワードピーストークン化などの異なるサブワードトークン化手法がILSにどのように影響するかを検討します。
これらのサブワードトークン化手法の有効性は、統計、神経、多言語の神経機械翻訳モデルで調査されています。
すべてのモデルは、バイリンガル評価アンテナディュディー(BLE)スコア、TER、MetEor、CHRF、Ribes、Cometなどの標準的な評価メトリックを使用して調査されます。
結果に基づいて、統計およびニューラルMTモデルの言語ペアの大部分では、BLEUスコアの観点から他のトークンザーよりも継続的にパフォーマンスが継続的に実行されたようです。
ただし、BPEトークン化は、多言語の神経機械翻訳モデルのコンテキストで他のトークン化手法よりも優れていました。
結果は、各モデルに同じトークン剤とデータセットを使用しているにもかかわらず、ILから英語への翻訳が英語からILSへの翻訳を上回っていることを示しています。

要約(オリジナル)

Tokenization is the act of breaking down text into smaller parts, or tokens, that are easier for machines to process. This is a key phase in machine translation (MT) models. Subword tokenization enhances this process by breaking down words into smaller subword units, which is especially beneficial in languages with complicated morphology or a vast vocabulary. It is useful in capturing the intricate structure of words in Indian languages (ILs), such as prefixes, suffixes, and other morphological variations. These languages frequently use agglutinative structures, in which words are formed by the combination of multiple morphemes such as suffixes, prefixes, and stems. As a result, a suitable tokenization strategy must be chosen to address these scenarios. This paper examines how different subword tokenization techniques, such as SentencePiece, Byte Pair Encoding (BPE), and WordPiece Tokenization, affect ILs. The effectiveness of these subword tokenization techniques is investigated in statistical, neural, and multilingual neural machine translation models. All models are examined using standard evaluation metrics, such as the Bilingual Evaluation Understudy (BLEU) score, TER, METEOR, CHRF, RIBES, and COMET. Based on the results, it appears that for the majority of language pairs for the Statistical and Neural MT models, the SentencePiece tokenizer continuously performed better than other tokenizers in terms of BLEU score. However, BPE tokenization outperformed other tokenization techniques in the context of Multilingual Neural Machine Translation model. The results show that, despite using the same tokenizer and dataset for each model, translations from ILs to English surpassed translations from English to ILs.

arxiv情報

著者 Sudhansu Bala Das,Samujjal Choudhury,Tapas Kumar Mishra,Bidyut Kr. Patra
発行日 2025-05-22 16:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Comparative analysis of subword tokenization approaches for Indian languages はコメントを受け付けていません

MPO: Multilingual Safety Alignment via Reward Gap Optimization

要約

大規模な言語モデル(LLM)は、世界中のAIアプリケーションの中心になりつつあり、多様な言語コンテキスト全体で安全な展開を確保するために、堅牢な多言語安全アライメントが必要です。
RLHFやDPOなどの安全アライメントのための既存の選好学習方法は、主に単一言語であり、騒々しい多言語データと闘っています。
これらの制限に対処するために、多言語報酬ギャップ最適化(MPO)を導入します。これは、複数の言語の安全アライメントを改善するために、支配的な言語(英語)の適切に整合した安全能力を活用する新しいアプローチです。
MPOは、支配的な言語とターゲット言語の間の報酬ギャップの違いを直接最小限に抑え、優性言語の元の強みを維持しながら安全能力を効果的に転送します。
3つのLLMS、LLAMA-3.1、GEMMA-2、QWEN2.5の広範な実験は、一般的な多言語ユーティリティを分解することなく、多言語の安全アライメントにおけるMPOの有効性を検証します。

要約(オリジナル)

Large language models (LLMs) have become increasingly central to AI applications worldwide, necessitating robust multilingual safety alignment to ensure secure deployment across diverse linguistic contexts. Existing preference learning methods for safety alignment, such as RLHF and DPO, are primarily monolingual and struggle with noisy multilingual data. To address these limitations, we introduce Multilingual reward gaP Optimization (MPO), a novel approach that leverages the well-aligned safety capabilities of the dominant language (English) to improve safety alignment across multiple languages. MPO directly minimizes the reward gap difference between the dominant language and target languages, effectively transferring safety capabilities while preserving the original strengths of the dominant language. Extensive experiments on three LLMs, LLaMA-3.1, Gemma-2 and Qwen2.5, validate MPO’s efficacy in multilingual safety alignment without degrading general multilingual utility.

arxiv情報

著者 Weixiang Zhao,Yulin Hu,Yang Deng,Tongtong Wu,Wenxuan Zhang,Jiahe Guo,An Zhang,Yanyan Zhao,Bing Qin,Tat-Seng Chua,Ting Liu
発行日 2025-05-22 16:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MPO: Multilingual Safety Alignment via Reward Gap Optimization はコメントを受け付けていません

TTRL: Test-Time Reinforcement Learning

要約

このホワイトペーパーでは、大規模な言語モデル(LLM)のタスクを推論するための明示的なラベルなしで、データの補強学習(RL)を調査します。
問題の中心的な課題は、グラウンドトゥルース情報にアクセスしていない間、推論中の報酬の推定です。
この設定はとらえどころのないように見えますが、多数票などのテスト時間スケーリング(TTS)の一般的なプラクティスは、RLトレーニングの運転に適した驚くほど効果的な報酬をもたらすことがわかります。
この作業では、ラベルのないデータでRLを使用してLLMをトレーニングするための新しい方法であるテスト時間強化学習(TTRL)を導入します。
TTRLは、事前に訓練されたモデルで事前に使用することにより、LLMの自己進化を可能にします。
私たちの実験は、TTRLがさまざまなタスクやモデルのパフォーマンスを一貫して改善することを示しています。
特に、TTRLは、QWEN-2.5-MATH-7Bのパス@1パフォーマンスを、AIME 2024で約211%増加させます。
さらに、TTRLはMAJ@Nメトリックによってのみ監督されていますが、TTRLは初期モデルMaj@nの上限を一貫して上回るパフォーマンスを実証し、グラウンドトゥルースラベルを使用してテストデータで直接トレーニングされたモデルのパフォーマンスにアプローチします。
私たちの実験的調査結果は、さまざまなタスクにわたるTTRLの一般的な有効性を検証し、より広範なタスクとドメインのTTRLの可能性を強調しています。
Github:https://github.com/prime-rl/ttrl

要約(オリジナル)

This paper investigates Reinforcement Learning (RL) on data without explicit labels for reasoning tasks in Large Language Models (LLMs). The core challenge of the problem is reward estimation during inference while not having access to ground-truth information. While this setting appears elusive, we find that common practices in Test-Time Scaling (TTS), such as majority voting, yield surprisingly effective rewards suitable for driving RL training. In this work, we introduce Test-Time Reinforcement Learning (TTRL), a novel method for training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs by utilizing the priors in the pre-trained models. Our experiments demonstrate that TTRL consistently improves performance across a variety of tasks and models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by approximately 211% on the AIME 2024 with only unlabeled test data. Furthermore, although TTRL is only supervised by the maj@n metric, TTRL has demonstrated performance to consistently surpass the upper limit of the initial model maj@n, and approach the performance of models trained directly on test data with ground-truth labels. Our experimental findings validate the general effectiveness of TTRL across various tasks and highlight TTRL’s potential for broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRL

arxiv情報

著者 Yuxin Zuo,Kaiyan Zhang,Li Sheng,Shang Qu,Ganqu Cui,Xuekai Zhu,Haozhan Li,Yuchen Zhang,Xinwei Long,Ermo Hua,Biqing Qi,Youbang Sun,Zhiyuan Ma,Lifan Yuan,Ning Ding,Bowen Zhou
発行日 2025-05-22 16:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TTRL: Test-Time Reinforcement Learning はコメントを受け付けていません

FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks

要約

空間的推論は、人間の知性の基本的な側面です。
空間認知の重要な概念の1つは、基準の枠組み(for)です。これは、空間式の視点を識別します。
その重要性にもかかわらず、空間インテリジェンスを必要とするAIモデルでは限られた注目を集めています。
この領域では、専用のベンチマークが不足しており、大規模な言語モデル(LLMS)の詳細な評価があります。
この問題に対処するために、LLMSでの理解を評価するように設計された空間推論タスク(森林)ベンチマークに参照評価のフレームを紹介します。
フォレストを使用してテキストから画像へのモデルで理解とレイアウトの生成を必要とする質問に答える際にLLMSを評価します。
私たちの結果は、さまざまなLLMのクラスの異なる間で顕著なパフォーマンスギャップを明らかにし、テキストから画像の生成のための正確なレイアウトを生成する能力に影響を与えます。
これは、理解のための重要な欠点を強調しています。
理解のために改善するために、空間ガイド付きプロンプトを提案します。これにより、LLMSが重要な空間概念を抽出する能力が向上します。
提案された方法は、空間的推論タスク全体の全体的なパフォーマンスを改善します。

要約(オリジナル)

Spatial reasoning is a fundamental aspect of human intelligence. One key concept in spatial cognition is the Frame of Reference (FoR), which identifies the perspective of spatial expressions. Despite its significance, FoR has received limited attention in AI models that need spatial intelligence. There is a lack of dedicated benchmarks and in-depth evaluation of large language models (LLMs) in this area. To address this issue, we introduce the Frame of Reference Evaluation in Spatial Reasoning Tasks (FoREST) benchmark, designed to assess FoR comprehension in LLMs. We evaluate LLMs on answering questions that require FoR comprehension and layout generation in text-to-image models using FoREST. Our results reveal a notable performance gap across different FoR classes in various LLMs, affecting their ability to generate accurate layouts for text-to-image generation. This highlights critical shortcomings in FoR comprehension. To improve FoR understanding, we propose Spatial-Guided prompting, which improves LLMs ability to extract essential spatial concepts. Our proposed method improves overall performance across spatial reasoning tasks.

arxiv情報

著者 Tanawan Premsri,Parisa Kordjamshidi
発行日 2025-05-22 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks はコメントを受け付けていません

Shadows in the Attention: Contextual Perturbation and Representation Drift in the Dynamics of Hallucination in LLMs

要約

幻覚 – もっともらしいが誤った出力 – は、大規模な言語モデル(LLM)の信頼できる展開に対する重要な障壁のままです。
幻覚の発生率を、漸進的なコンテキストインジェクションによって誘発される内部状態ドリフトにリンクする最初の系統的研究を提示します。
Truthfulqaを使用して、質問ごとに2つの16ラウンドの「滴定」トラックを作成します。1つは関連性があるが部分的に欠陥のあるスニペットを追加し、もう1つは意図的に誤解を招くコンテンツを注入します。
6つのオープンソースLLMにまたがって、コサイン、エントロピー、JS、および隠れた状態と注意マップのスピアマンドリフトを介して、トライパリスペクト検出器とカバーダイナミクスを使用して、明白な幻覚率を追跡します。
結果は、(1)5-7ラウンドの後に幻覚の頻度と表現のドリフトの単調な成長を明らかにします。
(2)関連するコンテキストは、より深いセマンティック同化を促進し、高い自信を生み出します。
(3)JS-Drift($ \ Sim0.69 $)とSpearman-Drift($ \ sim0 $)の収束は、幻覚が固化し、補正に耐性になる「注意ロック」しきい値をマークします。
相関分析では、同化能力と注意の拡散、サイズ依存のエラーモードを明確にする間のシーソーを公開します。
これらの調査結果は、固有の幻覚予測とコンテキスト認識緩和メカニズムの経験的基礎を提供します。

要約(オリジナル)

Hallucinations — plausible yet erroneous outputs — remain a critical barrier to reliable deployment of large language models (LLMs). We present the first systematic study linking hallucination incidence to internal-state drift induced by incremental context injection. Using TruthfulQA, we construct two 16-round ‘titration’ tracks per question: one appends relevant but partially flawed snippets, the other injects deliberately misleading content. Across six open-source LLMs, we track overt hallucination rates with a tri-perspective detector and covert dynamics via cosine, entropy, JS and Spearman drifts of hidden states and attention maps. Results reveal (1) monotonic growth of hallucination frequency and representation drift that plateaus after 5–7 rounds; (2) relevant context drives deeper semantic assimilation, producing high-confidence ‘self-consistent’ hallucinations, whereas irrelevant context induces topic-drift errors anchored by attention re-routing; and (3) convergence of JS-Drift ($\sim0.69$) and Spearman-Drift ($\sim0$) marks an ‘attention-locking’ threshold beyond which hallucinations solidify and become resistant to correction. Correlation analyses expose a seesaw between assimilation capacity and attention diffusion, clarifying size-dependent error modes. These findings supply empirical foundations for intrinsic hallucination prediction and context-aware mitigation mechanisms.

arxiv情報

著者 Zeyu Wei,Shuo Wang,Xiaohui Rong,Xuemin Liu,He Li
発行日 2025-05-22 16:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Shadows in the Attention: Contextual Perturbation and Representation Drift in the Dynamics of Hallucination in LLMs はコメントを受け付けていません

Power-Law Decay Loss for Large Language Model Finetuning: Focusing on Information Sparsity to Enhance Generation Quality

要約

テキスト生成タスクの微調整段階では、標準的なクロスエントロピー損失はすべてのトークンを等しく扱います。
これにより、モデルは高周波の低下の低下トークンを強調し、生成されたコンテンツの特異性と情報性に不可欠な低周波トークンを無視することができます。
このホワイトペーパーでは、テキスト生成のための微調整プロセスを最適化するために特別に設計された新しい損失関数であるパワーロー減衰損失(PDL)を紹介します。
PDLのコアの動機は、情報理論と言語学の観察から生じます。トークンの情報性は、しばしばその発生頻度に反比例します。
PDLは、パワーローの減衰に続いて、トレーニングコーパスの頻度に基づいて、標準のクロスエントロピー損失における各トークンの寄与を再重視します。
具体的には、高周波トークンのウェイトは減少しますが、低周波の情報密度の高いトークンにはより高い重みが割り当てられます。
このメカニズムは、微調整中にモデルを導き、特定のユニークな情報を伝えるトークンの学習と生成に焦点を当て、生成されたテキストの品質、多様性、情報を高めます。
PDLの動機付けと構築について理論的に詳しく説明し、抽象的な要約、対話システム、スタイルの転送など、さまざまなテキスト生成の微調整タスクにわたる潜在的なアプリケーションと利点について議論します。

要約(オリジナル)

During the finetuning stage of text generation tasks, standard cross-entropy loss treats all tokens equally. This can lead models to overemphasize high-frequency, low-information tokens, neglecting lower-frequency tokens crucial for specificity and informativeness in generated content. This paper introduces a novel loss function, Power-Law Decay Loss (PDL), specifically designed to optimize the finetuning process for text generation. The core motivation for PDL stems from observations in information theory and linguistics: the informativeness of a token is often inversely proportional to its frequency of occurrence. PDL re-weights the contribution of each token in the standard cross-entropy loss based on its frequency in the training corpus, following a power-law decay. Specifically, the weights for high-frequency tokens are reduced, while low-frequency, information-dense tokens are assigned higher weights. This mechanism guides the model during finetuning to focus more on learning and generating tokens that convey specific and unique information, thereby enhancing the quality, diversity, and informativeness of the generated text. We theoretically elaborate on the motivation and construction of PDL and discuss its potential applications and advantages across various text generation finetuning tasks, such as abstractive summarization, dialogue systems, and style transfer.

arxiv情報

著者 Jintian Shao,Hongyi Huang,Jiayi Wu,Beiwen Zhang,ZhiYu Wu,You Shan,MingKai Zheng
発行日 2025-05-22 16:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Power-Law Decay Loss for Large Language Model Finetuning: Focusing on Information Sparsity to Enhance Generation Quality はコメントを受け付けていません

UNCLE: Uncertainty Expressions in Long-Form Generation

要約

大規模な言語モデル(LLM)は、特に長期の世代では幻覚を起こしやすいです。
幻覚を軽減する有望な方向性は、LLMが十分な知識が不足している場合に不確実性を明示的に表現するように教えることです。
ただし、既存の作業には、長期の生成において不確実性を効果的に表現するLLMSの能力の直接的かつ公正な評価がありません。
このギャップに対処するために、最初に叔父を紹介します。叔父は、長い形式と短い形式の両方の質問応答(QA)で不確実性の発現を評価するために設計されたベンチマークです。
叔父は5つのドメインにまたがり、4Kの長型QAインスタンスと20K以上の短編QAペアで構成されています。
データセットは、ペアの質問とゴールドスタンダードの回答を備えた短い形と長型のQAを直接橋渡しする最初のものです。
ベンチマークに加えて、モデルの機能を評価して不確実性を選択的に表現するための一連の新しいメトリックを提案します。
叔父を使用して、現在のモデルが長期にわたる生成で不確実性を適切に伝えることができないことを示します。
さらに、モデルのパフォーマンスを向上させるための迅速なベースとトレーニングベースの方法の両方を調査します。トレーニングベースの方法はより大きな利益をもたらします。
短い形式と長編の不確実性発現の間のアライメントギャップのさらなる分析は、叔父を使用した将来の研究のための指示を約束することを強調しています。

要約(オリジナル)

Large Language Models (LLMs) are prone to hallucination, particularly in long-form generations. A promising direction to mitigate hallucination is to teach LLMs to express uncertainty explicitly when they lack sufficient knowledge. However, existing work lacks direct and fair evaluation of LLMs’ ability to express uncertainty effectively in long-form generation. To address this gap, we first introduce UNCLE, a benchmark designed to evaluate uncertainty expression in both long- and short-form question answering (QA). UNCLE spans five domains and comprises 4k long-form QA instances and over 20k short-form QA pairs. Our dataset is the first to directly bridge short- and long-form QA with paired questions and gold-standard answers. Along with the benchmark, we propose a suite of new metrics to assess the models’ capabilities to selectively express uncertainty. Using UNCLE, we then demonstrate that current models fail to convey uncertainty appropriately in long-form generation. We further explore both prompt-based and training-based methods to improve models’ performance, with the training-based methods yielding greater gains. Further analysis of alignment gaps between short- and long-form uncertainty expression highlights promising directions for future research using UNCLE.

arxiv情報

著者 Ruihan Yang,Caiqi Zhang,Zhisong Zhang,Xinting Huang,Dong Yu,Nigel Collier,Deqing Yang
発行日 2025-05-22 17:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UNCLE: Uncertainty Expressions in Long-Form Generation はコメントを受け付けていません