Improving large language models with concept-aware fine-tuning

要約

大規模な言語モデル(LLM)は、現代AIの基礎となっています。
ただし、次のトークン予測の既存のパラダイムは、一貫した高レベルの概念を形成する能力を根本的に制限し、人間のような理解と推論に対する重要な障壁となっています。
「リボ核酸」というフレーズを例にとって、LLMは最初にトークンに分解します。つまり、人工テキストフラグメント( ‘rib’、 ‘on’、…)に分解し、統一された一貫したセマンティックエンティティとしてフレーズを把握するのではなく、各トークンを順次学習します。
この断片化された表現は、より深い概念の理解、そして最終的には真にインテリジェントなシステムの開発を妨げます。
これに応じて、LLMがどのように微調整されているかを再定義する新しいマルチトークントレーニング方法であるコンセプト対応の微調整(CAFT)を紹介します。
複数のトークンにまたがるシーケンスの学習を可能にすることにより、この方法はより強力な概念認識学習を促進します。
私たちの実験は、テキストの要約などの従来のアプリケーションやDe Novoタンパク質設計などのドメイン固有のアプリケーションなど、多様なタスクにわたる従来のネクストトークンの微調整方法と比較して、大幅な改善を示しています。
マルチトークン予測は、以前は法外に高価な事前脱出段階でのみ可能でした。
私たちの知る限り、CAFTは、マルチトークンの設定をトレーニング後の段階に持ち込む最初のものであり、したがって、実務家や研究者のより広範なコミュニティにとって利益を効果的に民主化します。
最後に、提案された方法の予期せぬ有効性は、機械学習研究コミュニティにとってより広い意味を示唆しています。
すべてのコードとデータは、https://github.com/michaelchen-lab/caft-llmで入手できます

要約(オリジナル)

Large language models (LLMs) have become the cornerstone of modern AI. However, the existing paradigm of next-token prediction fundamentally limits their ability to form coherent, high-level concepts, making it a critical barrier to human-like understanding and reasoning. Take the phrase ‘ribonucleic acid’ as an example: an LLM will first decompose it into tokens, i.e., artificial text fragments (‘rib’, ‘on’, …), then learn each token sequentially, rather than grasping the phrase as a unified, coherent semantic entity. This fragmented representation hinders deeper conceptual understanding and, ultimately, the development of truly intelligent systems. In response, we introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method that redefines how LLMs are fine-tuned. By enabling the learning of sequences that span multiple tokens, this method fosters stronger concept-aware learning. Our experiments demonstrate significant improvements compared to conventional next-token finetuning methods across diverse tasks, including traditional applications like text summarization and domain-specific ones like de novo protein design. Multi-token prediction was previously only possible in the prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first to bring the multi-token setting to the post-training phase, thus effectively democratizing its benefits for the broader community of practitioners and researchers. Finally, the unexpected effectiveness of our proposed method suggests wider implications for the machine learning research community. All code and data are available at https://github.com/michaelchen-lab/caft-llm

arxiv情報

著者 Michael K. Chen,Xikun Zhang,Jiaxing Huang,Dacheng Tao
発行日 2025-06-09 14:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Improving large language models with concept-aware fine-tuning はコメントを受け付けていません

Beyond Numeric Rewards: In-Context Dueling Bandits with LLM Agents

要約

コンテキスト内補強学習(ICRL)は、基礎モデルの時代の強化学習(RL)の問題を解決するためのフロンティアパラダイムです。
ICRL機能は、タスク固有のトレーニングを通じて変圧器で実証されていますが、すぐにボックス外の大規模な言語モデル(LLM)の可能性はほとんど未踏のままです。
このペーパーでは、LLMSがクロスドメインを一般化して、Stateless PreferenceベースのRL設定であるDueling Bandits(DB)の問題の下でICRLを実行できるかどうかを調査します。
トップパフォーマンスのLLMは、相対的な意思決定のために顕著なゼロショット容量を示していることがわかります。これは、デュエルスの最高の腕を含むすべてのDB環境インスタンスでの短期的な弱い後悔が低いことを意味します。
ただし、強い後悔という点で、LLMSと古典的なDBアルゴリズムの間に最適性のギャップが存在します。
LLMSは、明示的にそうするように促されたとしても、収束と一貫して活用するのに苦労し、迅速な変動に敏感です。
このギャップを埋めるために、エージェントフローフレームワーク:強化されたアルゴリズムの決闘(LEAD)を備えたLLMを提案します。これは、株式のDBアルゴリズムサポートとLLMエージェントと微調整された適応的相互作用を統合します。
リードには、弱い後悔と強い後悔の両方で、古典的なDBアルゴリズムから継承された理論的保証があることを示します。
騒々しいプロンプトでさえ、その有効性と堅牢性を検証します。
このようなエージェントフレームワークの設計は、コンテキスト内の意思決定タスクに一般化された汎用LLMの信頼性を高める方法に光を当てています。

要約(オリジナル)

In-Context Reinforcement Learning (ICRL) is a frontier paradigm to solve Reinforcement Learning (RL) problems in the foundation model era. While ICRL capabilities have been demonstrated in transformers through task-specific training, the potential of Large Language Models (LLMs) out-of-the-box remains largely unexplored. This paper investigates whether LLMs can generalize cross-domain to perform ICRL under the problem of Dueling Bandits (DB), a stateless preference-based RL setting. We find that the top-performing LLMs exhibit a notable zero-shot capacity for relative decision-making, which translates to low short-term weak regret across all DB environment instances by quickly including the best arm in duels. However, an optimality gap still exists between LLMs and classic DB algorithms in terms of strong regret. LLMs struggle to converge and consistently exploit even when explicitly prompted to do so, and are sensitive to prompt variations. To bridge this gap, we propose an agentic flow framework: LLM with Enhanced Algorithmic Dueling (LEAD), which integrates off-the-shelf DB algorithm support with LLM agents through fine-grained adaptive interplay. We show that LEAD has theoretical guarantees inherited from classic DB algorithms on both weak and strong regret. We validate its efficacy and robustness even with noisy and adversarial prompts. The design of such an agentic framework sheds light on how to enhance the trustworthiness of general-purpose LLMs generalized to in-context decision-making tasks.

arxiv情報

著者 Fanzeng Xia,Hao Liu,Yisong Yue,Tongxin Li
発行日 2025-06-09 14:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Beyond Numeric Rewards: In-Context Dueling Bandits with LLM Agents はコメントを受け付けていません

Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning

要約

大規模な言語モデル(LLM)は、コンテキストの理解に大幅な改善を実証しています。
ただし、長い文脈の推論と世代の間に真に重要な情報に出席する能力は、まだペースの遅れになります。
具体的には、予備的な実験では、特定の注意散漫パターンが推論中のモデルの注意を誤って指示し、これらのパターンを削除すると、推論の正確性と生成品質が大幅に向上することが明らかになります。
この現象は、トレーニングデータの偽の相関関係に起因するものであり、これにより、本物の因果的指導反応関係を推測するモデルの能力を妨害します。
この現象は、冗長な推論プロセスを誘導する可能性があり、潜在的に有意な推論オーバーヘッドをもたらし、より重要なことに、誤ったまたは最適ではない応答の生成をもたらします。
これを緩和するために、解き間交絡因子に対する介入ベースの推論を活用するLearning to Focus(Leaf)という2段階のフレームワークを紹介します。
最初の段階では、Leafは上級教師と勾配ベースの比較を使用して、トレーニングコーパスの因果関係に基づいて交絡トークンを自動的に識別します。
次に、第2段階では、蒸留中にこれらのトークンを剪定して介入を制定し、生徒の注意を真の重要なコンテキストトークンに教師の焦点分布に合わせます。
実験結果は、葉がさまざまな数学的推論とコード生成ベンチマークの絶対的な改善を達成するだけでなく、推論中の交絡トークンへの注意を効果的に抑制し、より解釈可能で信頼性の高い推論モデルをもたらすことを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant improvements in contextual understanding. However, their ability to attend to truly critical information during long-context reasoning and generation still falls behind the pace. Specifically, our preliminary experiments reveal that certain distracting patterns can misdirect the model’s attention during inference, and removing these patterns substantially improves reasoning accuracy and generation quality. We attribute this phenomenon to spurious correlations in the training data, which obstruct the model’s capacity to infer authentic causal instruction-response relationships. This phenomenon may induce redundant reasoning processes, potentially resulting in significant inference overhead and, more critically, the generation of erroneous or suboptimal responses. To mitigate this, we introduce a two-stage framework called Learning to Focus (LeaF) leveraging intervention-based inference to disentangle confounding factors. In the first stage, LeaF employs gradient-based comparisons with an advanced teacher to automatically identify confounding tokens based on causal relationships in the training corpus. Then, in the second stage, it prunes these tokens during distillation to enact intervention, aligning the student’s attention with the teacher’s focus distribution on truly critical context tokens. Experimental results demonstrate that LeaF not only achieves an absolute improvement in various mathematical reasoning and code generation benchmarks but also effectively suppresses attention to confounding tokens during inference, yielding a more interpretable and reliable reasoning model.

arxiv情報

著者 Yiju Guo,Wenkai Yang,Zexu Sun,Ning Ding,Zhiyuan Liu,Yankai Lin
発行日 2025-06-09 15:16:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning はコメントを受け付けていません

Introspective Growth: Automatically Advancing LLM Expertise in Technology Judgment

要約

大規模な言語モデル(LLM)は、概念的な理解の兆候をますます示していますが、内部知識の多くは潜在的、ゆるく構造化され、アクセスまたは評価が困難なままです。
特に成功がきめ細かいセマンティックの区別に依存するドメインで、LLMの理解を改善するための軽量でスケーラブルな戦略として自己質問を提案します。
このアプローチを評価するために、密集した技術用語と戦略的に複雑な執筆を特徴とする2015年以降の130万のコンピューターサイエンス特許ペアの挑戦的な新しいベンチマークを紹介します。
ベンチマークは、ペアワイズ分化タスクに集中しています。モデルは、密接に関連しているが実質的に異なる発明を区別できますか?
プラセボの科学情報と比較して、LLMが自分の質問を生成して答えるように促し、タスクに必要な背景知識をターゲットにすることを促し、パフォーマンスを大幅に改善します。
これらの自己生成された質問と回答は、それ以外の場合は十分に活用されていない内部知識を活性化します。
LLMが外部の科学テキストから回答を取得できるようにすると、パフォーマンスがさらに向上し、モデルの知識が圧縮され、トレーニングデータの完全な豊かさがないことを示唆しています。
また、自己質問は技術的概念の理解を改善するためにより効果的なままであるが、考え方の促しと自己質問が収束することを発見した。
特に、プロンプトの非対称性を発見します。より小さなモデルは、大規模なモデルよりも中規模モデルに対してより基本的で、よりオープンエンド、より優れた、より優れた、より優れた、より優れた、より優れた、より優れた整列の質問を生成し、クロスモデルコラボレーションのための新しい戦略を明らかにします。
全体として、私たちの調査結果は、特にまばらで過小評価された知識を持つドメインで、LLM理解を自動的に改善するための実用的なメカニズムと、内部および外部の知識がどのように編成されているかの診断プローブとしての自己質問を確立します。

要約(オリジナル)

Large language models (LLMs) increasingly demonstrate signs of conceptual understanding, yet much of their internal knowledge remains latent, loosely structured, and difficult to access or evaluate. We propose self-questioning as a lightweight and scalable strategy to improve LLMs’ understanding, particularly in domains where success depends on fine-grained semantic distinctions. To evaluate this approach, we introduce a challenging new benchmark of 1.3 million post-2015 computer science patent pairs, characterized by dense technical jargon and strategically complex writing. The benchmark centers on a pairwise differentiation task: can a model distinguish between closely related but substantively different inventions? We show that compared to placebo scientific information, prompting LLMs to generate and answer their own questions – targeting the background knowledge required for the task – significantly improves performance. These self-generated questions and answers activate otherwise underutilized internal knowledge. Allowing LLMs to retrieve answers from external scientific texts further enhances performance, suggesting that model knowledge is compressed and lacks the full richness of the training data. We also find that chain-of-thought prompting and self-questioning converge, though self-questioning remains more effective for improving understanding of technical concepts. Notably, we uncover an asymmetry in prompting: smaller models often generate more fundamental, more open-ended, better-aligned questions for mid-sized models than large models do, revealing a new strategy for cross-model collaboration. Altogether, our findings establish self-questioning as both a practical mechanism for automatically improving LLM comprehension, especially in domains with sparse and underrepresented knowledge, and a diagnostic probe of how internal and external knowledge are organized.

arxiv情報

著者 Siyang Wu,Honglin Bao,Nadav Kunievsky,James A. Evans
発行日 2025-06-09 15:40:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.DL, cs.IR | Introspective Growth: Automatically Advancing LLM Expertise in Technology Judgment はコメントを受け付けていません

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs

要約

実際のシステムに展開された言語モデルは、多くの場合、新しい知識または修正された知識を組み込むために事後更新が必要です。
ただし、このようなモデルを効率的かつ確実に編集することは、以前の情報を再訓練または忘れることなく、大きな課題です。
妥協の一般化、過去の編集を妨害する、または長い編集シーケンスへのスケーリングに失敗する生涯モデル編集のための既存の方法。
Memoirを提案します。これは、事前に訓練されたモデルのコア機能を維持しながら、残留メモリ、つまり専用のパラメーターモジュールを介して知識を注入する新しいスケーラブルなフレームワークです。
サンプル依存マスクを介して入力アクティベーションをスパーリングすることにより、回顧録は各編集をメモリパラメーターの異なるサブセットに閉じ込め、編集間の干渉を最小限に抑えます。
推論では、編集中に保存されているものと新しいクエリのスパースアクティベーションパターンを比較することにより、関連する編集を識別します。
これにより、関連する知識のみをアクティブにしながら、無関係なプロンプトの不要なメモリ活性化を抑制することにより、一般化が言い換えられるクエリを再定理化することができます。
Llama-3およびMistral全体で質問の回答、幻覚補正、および分散式の一般化ベンチマークに関する実験は、メモが信頼性、一般化、および地域の指標にわたって最先端のパフォーマンスを達成し、最小限の忘却を伴う数千の連続した編集に拡大することを示しています。

要約(オリジナル)

Language models deployed in real-world systems often require post-hoc updates to incorporate new or corrected knowledge. However, editing such models efficiently and reliably – without retraining or forgetting previous information – remains a major challenge. Existing methods for lifelong model editing either compromise generalization, interfere with past edits, or fail to scale to long editing sequences. We propose MEMOIR, a novel scalable framework that injects knowledge through a residual memory, i.e., a dedicated parameter module, while preserving the core capabilities of the pre-trained model. By sparsifying input activations through sample-dependent masks, MEMOIR confines each edit to a distinct subset of the memory parameters, minimizing interference among edits. At inference, it identifies relevant edits by comparing the sparse activation patterns of new queries to those stored during editing. This enables generalization to rephrased queries by activating only the relevant knowledge while suppressing unnecessary memory activation for unrelated prompts. Experiments on question answering, hallucination correction, and out-of-distribution generalization benchmarks across LLaMA-3 and Mistral demonstrate that MEMOIR achieves state-of-the-art performance across reliability, generalization, and locality metrics, scaling to thousands of sequential edits with minimal forgetting.

arxiv情報

著者 Ke Wang,Yiming Qin,Nikolaos Dimitriadis,Alessandro Favero,Pascal Frossard
発行日 2025-06-09 16:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs はコメントを受け付けていません

Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

要約

GeminiやChatGptなどのマルチモーダルファンデーションモデルは、さまざまな形式のデータをシームレスに統合することにより、ヒューマンマシンの相互作用に革命をもたらしました。
幅広い自然言語の指示を理解する普遍的な音声言語モデルを開発することは、コミュニケーションのギャップを埋め、より直感的な相互作用を促進するために重要です。
ただし、包括的な評価ベンチマークがないことは大きな課題をもたらします。
命令ベースのユニバーサル音声モデルの包括的な評価のためのオープンで進化するベンチマークであるDynamic-Superb Phase-2を紹介します。
第一世代に基づいて、この2番目のバージョンには、グローバルな研究コミュニティによって共同で貢献した125の新しいタスクが組み込まれており、ベンチマークを合計180のタスクに拡大し、音声と音声評価の最大のベンチマークとなっています。
Dynamic-Superbの第1世代は分類タスクに限定されていましたが、Dynamic-Superb Phase-2は、スピーチ、音楽、環境オーディオ全体の回帰とシーケンス生成などの幅広い斬新で多様なタスクを導入することにより、評価機能を広げます。
評価結果は、モデルが普遍的にうまく機能していないことを示しています。
Salmonn-13Bは英語で優れており、QWEN2-Audio-7B-Instructは感情認識に高い精度を示しましたが、現在のモデルでは、より広範なタスクを処理するためにさらに革新が必要です。
https://github.com/dynamic-superb/dynamic-superbですべてのタスクデータと評価パイプラインをオープンソースします。

要約(オリジナル)

Multimodal foundation models, such as Gemini and ChatGPT, have revolutionized human-machine interactions by seamlessly integrating various forms of data. Developing a universal spoken language model that comprehends a wide range of natural language instructions is critical for bridging communication gaps and facilitating more intuitive interactions. However, the absence of a comprehensive evaluation benchmark poses a significant challenge. We present Dynamic-SUPERB Phase-2, an open and evolving benchmark for the comprehensive evaluation of instruction-based universal speech models. Building upon the first generation, this second version incorporates 125 new tasks contributed collaboratively by the global research community, expanding the benchmark to a total of 180 tasks, making it the largest benchmark for speech and audio evaluation. While the first generation of Dynamic-SUPERB was limited to classification tasks, Dynamic-SUPERB Phase-2 broadens its evaluation capabilities by introducing a wide array of novel and diverse tasks, including regression and sequence generation, across speech, music, and environmental audio. Evaluation results show that no model performed well universally. SALMONN-13B excelled in English ASR and Qwen2-Audio-7B-Instruct showed high accuracy in emotion recognition, but current models still require further innovations to handle a broader range of tasks. We open-source all task data and the evaluation pipeline at https://github.com/dynamic-superb/dynamic-superb.

arxiv情報

著者 Chien-yu Huang,Wei-Chih Chen,Shu-wen Yang,Andy T. Liu,Chen-An Li,Yu-Xiang Lin,Wei-Cheng Tseng,Anuj Diwan,Yi-Jen Shih,Jiatong Shi,William Chen,Chih-Kai Yang,Wenze Ren,Xuanjun Chen,Chi-Yuan Hsiao,Puyuan Peng,Shih-Heng Wang,Chun-Yi Kuan,Ke-Han Lu,Kai-Wei Chang,Fabian Ritter-Gutierrez,Kuan-Po Huang,Siddhant Arora,You-Kuan Lin,Ming To Chuang,Eunjung Yeo,Kalvin Chang,Chung-Ming Chien,Kwanghee Choi,Jun-You Wang,Cheng-Hsiu Hsieh,Yi-Cheng Lin,Chee-En Yu,I-Hsiang Chiu,Heitor R. Guimarães,Jionghao Han,Tzu-Quan Lin,Tzu-Yuan Lin,Homu Chang,Ting-Wu Chang,Chun Wei Chen,Shou-Jen Chen,Yu-Hua Chen,Hsi-Chun Cheng,Kunal Dhawan,Jia-Lin Fang,Shi-Xin Fang,Kuan-Yu Fang Chiang,Chi An Fu,Hsien-Fu Hsiao,Ching Yu Hsu,Shao-Syuan Huang,Lee Chen Wei,Hsi-Che Lin,Hsuan-Hao Lin,Hsuan-Ting Lin,Jian-Ren Lin,Ting-Chun Liu,Li-Chun Lu,Tsung-Min Pai,Ankita Pasad,Shih-Yun Shan Kuan,Suwon Shon,Yuxun Tang,Yun-Shao Tsai,Jui-Chiang Wei,Tzu-Chieh Wei,Chengxi Wu,Dien-Ruei Wu,Chao-Han Huck Yang,Chieh-Chi Yang,Jia Qi Yip,Shao-Xiang Yuan,Vahid Noroozi,Zhehuai Chen,Haibin Wu,Karen Livescu,David Harwath,Shinji Watanabe,Hung-yi Lee
発行日 2025-06-09 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks はコメントを受け付けていません

Quantum Graph Transformer for NLP Sentiment Classification

要約

量子機械学習は、特に複雑で構造化されたデータが重要であるドメインで、より効率的で表現力豊かなモデルを構築するための有望な方向です。
量子グラフトランス(QGT)を提示します。これは、構造化された言語モデリングのためのメッセージパスフレームワークに量子自己関節メカニズムを統合するハイブリッドグラフベースのアーキテクチャです。
注意メカニズムは、パラメーター化された量子回路(PQCS)を使用して実装されます。これにより、モデルはリッチなコンテキスト関係をキャプチャでき、古典的な注意メカニズムと比較してトレーニング可能なパラメーターの数を大幅に削減できます。
5つのセンチメント分類ベンチマークでQGTを評価します。
実験結果は、QGTが、注意ベースと非攻撃ベースのアプローチの両方を含む、既存の量子自然言語処理(QNLP)モデルよりも一貫して高度または同等の精度を達成することを示しています。
同等の古典的なグラフトランスと比較すると、QGTは、実世界のデータセットで5.42%、合成データセットで4.76%の平均精度改善が得られます。
さらに、QGTはサンプル効率の改善を実証しており、Yelpデータセットで同等のパフォーマンスに達するために、標識サンプルが50%近く少ないことを示しています。
これらの結果は、効率的でスケーラブルな言語理解を進めるためのグラフベースのQNLP技術の可能性を強調しています。

要約(オリジナル)

Quantum machine learning is a promising direction for building more efficient and expressive models, particularly in domains where understanding complex, structured data is critical. We present the Quantum Graph Transformer (QGT), a hybrid graph-based architecture that integrates a quantum self-attention mechanism into the message-passing framework for structured language modeling. The attention mechanism is implemented using parameterized quantum circuits (PQCs), which enable the model to capture rich contextual relationships while significantly reducing the number of trainable parameters compared to classical attention mechanisms. We evaluate QGT on five sentiment classification benchmarks. Experimental results show that QGT consistently achieves higher or comparable accuracy than existing quantum natural language processing (QNLP) models, including both attention-based and non-attention-based approaches. When compared with an equivalent classical graph transformer, QGT yields an average accuracy improvement of 5.42% on real-world datasets and 4.76% on synthetic datasets. Additionally, QGT demonstrates improved sample efficiency, requiring nearly 50% fewer labeled samples to reach comparable performance on the Yelp dataset. These results highlight the potential of graph-based QNLP techniques for advancing efficient and scalable language understanding.

arxiv情報

著者 Shamminuj Aktar,Andreas Bärtschi,Abdel-Hameed A. Badawy,Stephan Eidenbenz
発行日 2025-06-09 16:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, quant-ph | Quantum Graph Transformer for NLP Sentiment Classification はコメントを受け付けていません

Statistical Hypothesis Testing for Auditing Robustness in Language Models

要約

入力摂動など、任意の介入の下で大規模な言語モデル(LLM)システムの出力が変化するか、モデルバリアントの変更など、テストする問題を検討してください。
システムの確率的性質により異なる可能性があるため、2つのLLM出力を単純に比較することはできません。また、計算上の操作性のために出力分布全体を比較することもできません。
テキストベースの出力を分析するための既存の方法は存在しますが、バイアスや公平性の測定など、根本的に異なる問題に焦点を当てています。
この目的のために、分布ベースの摂動分析を紹介します。これは、頻繁な仮説検査問題としてLLM摂動分析を再編成するフレームワークです。
モンテカルロサンプリングを介して低次元セマンティック類似性空間内で経験的なヌルおよび代替出力分布を構築し、制限的な分布仮定なしで扱いやすい推論を可能にします。
フレームワークは(i)モデルと依存度であり、(ii)ブラックボックスLLMでの任意の入力摂動の評価をサポートします(iii)は解釈可能なp値を生成します。
(iv)制御されたエラー率を介して複数の摂動をサポートします。
(v)スカラー効果サイズを提供します。
複数のケーススタディにわたるフレームワークの有用性を示し、応答の変化を定量化し、真/偽陽性率を測定し、参照モデルとのアライメントを評価する方法を示します。
とりわけ、これはLLM監査のための信頼できる頻繁な仮説テストフレームワークと考えています。

要約(オリジナル)

Consider the problem of testing whether the outputs of a large language model (LLM) system change under an arbitrary intervention, such as an input perturbation or changing the model variant. We cannot simply compare two LLM outputs since they might differ due to the stochastic nature of the system, nor can we compare the entire output distribution due to computational intractability. While existing methods for analyzing text-based outputs exist, they focus on fundamentally different problems, such as measuring bias or fairness. To this end, we introduce distribution-based perturbation analysis, a framework that reformulates LLM perturbation analysis as a frequentist hypothesis testing problem. We construct empirical null and alternative output distributions within a low-dimensional semantic similarity space via Monte Carlo sampling, enabling tractable inference without restrictive distributional assumptions. The framework is (i) model-agnostic, (ii) supports the evaluation of arbitrary input perturbations on any black-box LLM, (iii) yields interpretable p-values; (iv) supports multiple perturbations via controlled error rates; and (v) provides scalar effect sizes. We demonstrate the usefulness of the framework across multiple case studies, showing how we can quantify response changes, measure true/false positive rates, and evaluate alignment with reference models. Above all, we see this as a reliable frequentist hypothesis testing framework for LLM auditing.

arxiv情報

著者 Paulius Rauba,Qiyao Wei,Mihaela van der Schaar
発行日 2025-06-09 17:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Statistical Hypothesis Testing for Auditing Robustness in Language Models はコメントを受け付けていません

Language Models over Canonical Byte-Pair Encodings

要約

現代の言語モデルは、バイトペアエンコーディングなどの決定論的トークン剤を介して導出された(より短い)トークン文字列の分布として、文字文字列上の確率分布を表します。
このアプローチは言語モデルを大規模にスケールアップするのに非常に効果的ですが、現在の化身には懸念があります。モデルは、各キャラクターの文字列のゼロ以外の確率マスを指数数に割り当てます{noncanical} $トークンエンコーディングのエンコーディングを割り当てます。
大きい)。
この誤配分はどちらも誤りがあります。非標準文字列は、トレーニングデータには決して現れず、浪費された確率の質量をもっともらしい出力から離します。
これらは回避可能な間違いです!
この作業では、トークンレベルの言語モデルで標準性を実施する方法を提案し、標準トークン文字列のみに正の確率が割り当てられるようにします。
(1)条件付けによる標準性、追加のトレーニングなしのテスト時間推論戦略を活用することによる標準性、および(2)建設による標準性、標準出力を保証するがトレーニングが必要なモデルパラメーター化。
標準性の間違いを修正すると、いくつかのモデルとコーパスのデータが保持される可能性が向上することを実証します。

要約(オリジナル)

Modern language models represent probability distributions over character strings as distributions over (shorter) token strings derived via a deterministic tokenizer, such as byte-pair encoding. While this approach is highly effective at scaling up language models to large corpora, its current incarnations have a concerning property: the model assigns nonzero probability mass to an exponential number of $\it{noncanonical}$ token encodings of each character string — these are token strings that decode to valid character strings but are impossible under the deterministic tokenizer (i.e., they will never be seen in any training corpus, no matter how large). This misallocation is both erroneous, as noncanonical strings never appear in training data, and wasteful, diverting probability mass away from plausible outputs. These are avoidable mistakes! In this work, we propose methods to enforce canonicality in token-level language models, ensuring that only canonical token strings are assigned positive probability. We present two approaches: (1) canonicality by conditioning, leveraging test-time inference strategies without additional training, and (2) canonicality by construction, a model parameterization that guarantees canonical outputs but requires training. We demonstrate that fixing canonicality mistakes improves the likelihood of held-out data for several models and corpora.

arxiv情報

著者 Tim Vieira,Tianyu Liu,Clemente Pasti,Yahya Emara,Brian DuSell,Benjamin LeBrun,Mario Giulianelli,Juan Luis Gastaldi,Timothy J. O’Donnell,Ryan Cotterell
発行日 2025-06-09 17:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | Language Models over Canonical Byte-Pair Encodings はコメントを受け付けていません

General-Reasoner: Advancing LLM Reasoning Across All Domains

要約

強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で強い可能性を実証しました。
特に、DeepSeek-R1-Zeroによって導入された「ゼロ」強化学習により、中間の監視付き微調整段階に依存することなく、ベースLLMの直接RLトレーニングが可能になります。
これらの進歩にもかかわらず、LLMの推論の現在の作業は、主にデータの豊富さと回答検証の容易さが原因で、主に数学的およびコーディングドメインに焦点を当てています。
これにより、そのようなモデルの適用性と一般化がより広範なドメインに制限されます。このドメインでは、質問には多様な回答表現があり、データはより少ないです。
この論文では、多様なドメイン全体のLLM推論能力を強化するために設計された新しいトレーニングパラダイムである一般的な季節を提案します。
私たちの重要な貢献には、次のものが含まれます。(1)幅広い分野をカバーするWebクローリングによってキュレーションされた検証可能な回答を含む、質問の大規模で高品質のデータセットの構築。
(2)伝統的なルールベースの検証を、考え方と文脈の認識の能力に置き換える生成モデルベースの回答検証を開発する。
一連のモデルをトレーニングし、物理学、化学、金融、電子機器などの広いドメインをカバーする幅広いデータセットでそれらを評価します。これらの12のベンチマークにわたる包括的な評価(例:MMLU-PRO、GPQA、SuperGPQA、Theoremqa、BBEH、MATH AMの一般的なパフォーマンスを維持する一般的なraseferingのパフォーマンスを実証していることが示されています。
数学的推論タスクにおける有効性。

要約(オリジナル)

Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the ‘Zero’ reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

arxiv情報

著者 Xueguang Ma,Qian Liu,Dongfu Jiang,Ge Zhang,Zejun Ma,Wenhu Chen
発行日 2025-06-09 17:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | General-Reasoner: Advancing LLM Reasoning Across All Domains はコメントを受け付けていません