Towards a Unified System of Representation for Continuity and Discontinuity in Natural Language

要約

構文の不連続性は、構成要素の一部ではない要素を挿入するため、構成要素が複数の部分に分割される文法現象です。
これは、トルコ語、ロシア語、日本、日本、ワールピリ、ナバホ、ホピ、dyirbal、yidinyなど、世界中の多くの言語で観察されています。
それぞれのフレームワーク/形式主義は、独立した非変換分析システムと広く見なされてきました。
この論文では、3つの形式主義、特に選挙区、その依存関係の依存関係(DG)の広く使用されている概念(DG)の3つの形式的文法(PSG)を考慮に入れて、自然言語の構造の連続性と不連続性の両方の統一された表現システムを提案します。
これら3つの文法形式に言語構造の表現を組み込んだ統一された数学的派生を通して、不連続な表現と連続構造を分析できることを示しようとします。

要約(オリジナル)

Syntactic discontinuity is a grammatical phenomenon in which a constituent is split into more than one part because of the insertion of an element which is not part of the constituent. This is observed in many languages across the world such as Turkish, Russian, Japanese, Warlpiri, Navajo, Hopi, Dyirbal, Yidiny etc. Different formalisms/frameworks in current linguistic theory approach the problem of discontinuous structures in different ways. Each framework/formalism has widely been viewed as an independent and non-converging system of analysis. In this paper, we propose a unified system of representation for both continuity and discontinuity in structures of natural languages by taking into account three formalisms, in particular, Phrase Structure Grammar (PSG) for its widely used notion of constituency, Dependency Grammar (DG) for its head-dependent relations, and Categorial Grammar (CG) for its focus on functor-argument relations. We attempt to show that discontinuous expressions as well as continuous structures can be analysed through a unified mathematical derivation incorporating the representations of linguistic structure in these three grammar formalisms.

arxiv情報

著者 Ratna Kandala,Prakash Mondal
発行日 2025-06-05 16:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection

要約

幻覚検出に対する一般的なアプローチは、それを自然言語推論(NLI)タスクとしてキャストし、多くの場合、LLMを使用して、生成されたテキストが対応する参照テキストによって伴うかどうかを分類します。
含意分類は複雑な推論タスクであるため、COTの推論や最近の推論モデルの明示的な「思考」のように、LLMが明示的な推論プロセスを生成することで利益を得ることができると予想されます。
この作業では、このようなモデルを導き、体系的かつ包括的な推論プロセスを実行することを提案します – テキストをより小さな事実に分解し、各事実のソースに証拠を見つけます – モデルは、より細かい粒度で正確な招待決定を実行し、パフォーマンスの向上につながります。
そのために、(i)請求の分解、(ii)サブクレームの帰属および伴う分類、および(iii)集計分類で構成される3段階の推論プロセスを定義します。
この推論フレームワークに従って、中間推論ステップの品質を測定するいくつかのメトリックで構成される分析スキームを紹介します。

要約(オリジナル)

A common approach to hallucination detection casts it as a natural language inference (NLI) task, often using LLMs to classify whether the generated text is entailed by corresponding reference texts. Since entailment classification is a complex reasoning task, one would expect that LLMs could benefit from generating an explicit reasoning process, as in CoT reasoning or the explicit “thinking” of recent reasoning models. In this work, we propose that guiding such models to perform a systematic and comprehensive reasoning process — one that both decomposes the text into smaller facts and also finds evidence in the source for each fact — allows models to execute much finer-grained and accurate entailment decisions, leading to increased performance. To that end, we define a 3-step reasoning process, consisting of (i) claim decomposition, (ii) sub-claim attribution and entailment classification, and (iii) aggregated classification, showing that such guided reasoning indeed yields improved hallucination detection. Following this reasoning framework, we introduce an analysis scheme, consisting of several metrics that measure the quality of the intermediate reasoning steps, which provided additional empirical evidence for the improved quality of our guided reasoning scheme.

arxiv情報

著者 Ron Eliav,Arie Cattan,Eran Hirsch,Shahaf Bassan,Elias Stengel-Eskin,Mohit Bansal,Ido Dagan
発行日 2025-06-05 17:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering

要約

事前に訓練された言語モデル(PLMS)は、近年驚くべきパフォーマンスを示しており、NLPの研究と産業の新しいパラダイムを設定しています。
法的領域は、そのテキストの性質のために、NLPコミュニティからある程度の注目を集めています。
このドメインからのいくつかのタスクは、質問回答(QA)タスクで表されます。
この作業では、低リソース言語の法的領域の複数選択QA(MCQA)を探ります。
この作業の貢献は多倍です。
最初に、3つの異なる試験と合計10,836の質問を含む最初の公然と利用可能なルーマニアの法的MCQAデータセットであるJuroを紹介します。
このデータセットに加えて、763時間のスパンから修正された合計93の異なるドキュメントを持つ法律の組織化されたコーパスであるCrolを紹介します。
さらに、私たちはルーマニア語の知識グラフ(kg)であるローログを提案した最初の人物であり、このkgは前述のコーパスから派生しています。
最後に、MCQAの新しいアプローチを提案します。これは、事実(GRAF)によって増強されたグラフ検索(GRAF)を提案します。これは、一般に受け入れられているSOTAメソッドで競争結果を達成し、ほとんどの設定でそれらを超えています。

要約(オリジナル)

Pre-trained Language Models (PLMs) have shown remarkable performances in recent years, setting a new paradigm for NLP research and industry. The legal domain has received some attention from the NLP community partly due to its textual nature. Some tasks from this domain are represented by question-answering (QA) tasks. This work explores the legal domain Multiple-Choice QA (MCQA) for a low-resource language. The contribution of this work is multi-fold. We first introduce JuRO, the first openly available Romanian legal MCQA dataset, comprising three different examinations and a number of 10,836 total questions. Along with this dataset, we introduce CROL, an organized corpus of laws that has a total of 93 distinct documents with their modifications from 763 time spans, that we leveraged in this work for Information Retrieval (IR) techniques. Moreover, we are the first to propose Law-RoG, a Knowledge Graph (KG) for the Romanian language, and this KG is derived from the aforementioned corpus. Lastly, we propose a novel approach for MCQA, Graph Retrieval Augmented by Facts (GRAF), which achieves competitive results with generally accepted SOTA methods and even exceeds them in most settings.

arxiv情報

著者 Cristian-George Crăciun,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel,Mihaela-Claudia Cercel
発行日 2025-06-05 17:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Is LLM the Silver Bullet to Low-Resource Languages Machine Translation?

要約

低リソース言語(LRL)は、限られた言語リソースと標準的なデータセットでの過小評価により、自然言語処理に大きな課題を提示します。
大規模な言語モデル(LLM)とニューラルマシンの翻訳の最近の進歩により、高リソース言語の翻訳機能が大幅に改善されましたが、LRLのパフォーマンス格差は持続し、特にプライバシーに敏感でリソースに制約のあるシナリオに影響を与えます。
このペーパーでは、Flores-200ベンチマークを使用して200の言語で現在のLLMSを体系的に評価し、LRL翻訳機能における制限を実証します。
また、ニュース記事やバイリンガル辞書などの代替データソースを探り、大規模な訓練を受けた教師モデルからの知識の蒸留が、LRL翻訳タスクでの小さなLLMSのパフォーマンスを大幅に改善できる方法を示します。
たとえば、このアプローチは、LLAMA-3.2-3Bの0.36から0.89の検証セットのLLM-A-A-JudgeスコアでEN-> LBを増加させます。
さらに、さまざまな微調整構成を調べ、最適なデータスケール、トレーニング効率、および研究中のモデルの一般化能力の保存に関する実用的な洞察を提供します。

要約(オリジナル)

Low-Resource Languages (LRLs) present significant challenges in natural language processing due to their limited linguistic resources and underrepresentation in standard datasets. While recent advances in Large Language Models (LLMs) and Neural Machine Translation have substantially improved translation capabilities for high-resource languages, performance disparities persist for LRLs, particularly impacting privacy-sensitive and resource-constrained scenarios. This paper systematically evaluates current LLMs in 200 languages using the FLORES-200 benchmark and demonstrates their limitations in LRL translation capability. We also explore alternative data sources, including news articles and bilingual dictionaries, and demonstrate how knowledge distillation from large pre-trained teacher models can significantly improve the performance of small LLMs on LRL translation tasks. For example, this approach increases EN->LB with the LLM-as-a-Judge score on the validation set from 0.36 to 0.89 for Llama-3.2-3B. Furthermore, we examine different fine-tuning configurations, providing practical insights on optimal data scale, training efficiency, and the preservation of generalization capabilities of models under study.

arxiv情報

著者 Yewei Song,Lujun Li,Cedric Lothritz,Saad Ezzini,Lama Sleem,Niccolo Gentile,Radu State,Tegawendé F. Bissyandé,Jacques Klein
発行日 2025-06-05 17:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

The broader spectrum of in-context learning

要約

文脈のいくつかの例からタスクを学ぶ言語モデルの能力は、大きな関心を生み出しました。
ここでは、このタイプの監督された少数の学習を、メタ学習中のコンテキスト学習のはるかに広いスペクトル内で位置づける視点を提供します。
確かに、コンテキストがその後の予測の損失を非文脈的に減少させるシーケンスの分布は、コンテキスト内学習の一種を誘発するものとして解釈できることを提案します。
この視点は、言語モデルが示す一連のコンテキスト内能力を統一するのに役立つことを提案します – 命令やロールプレイからのタスクに適応したり、時系列の外挿。
この視点は、言語依存関係の低レベルの処理におけるコンテキスト内学習の潜在的な根にも光を当てています(例えば、コアファレンスまたは並列構造)。
最後に、この視点をとると、一般化の重要性が強調されています。これは、いくつかの次元に沿って研究することができます。斬新なことを学ぶ能力だけでなく、さまざまなプレゼンテーションから学習し、学んだことを適用する柔軟性も強調しています。
メタ学習および目標条件付けされたエージェント、および学習と適応に関するその他の視点における過去の文献とのより広範なつながりについて説明します。
コンテキスト内学習に関する研究は、コンテキスト内の能力と一般化の種類のこの広範なスペクトルを考慮すべきであることを示唆しています。

要約(オリジナル)

The ability of language models to learn a task from a few examples in context has generated substantial interest. Here, we provide a perspective that situates this type of supervised few-shot learning within a much broader spectrum of meta-learned in-context learning. Indeed, we suggest that any distribution of sequences in which context non-trivially decreases loss on subsequent predictions can be interpreted as eliciting a kind of in-context learning. We suggest that this perspective helps to unify the broad set of in-context abilities that language models exhibit — such as adapting to tasks from instructions or role play, or extrapolating time series. This perspective also sheds light on potential roots of in-context learning in lower-level processing of linguistic dependencies (e.g. coreference or parallel structures). Finally, taking this perspective highlights the importance of generalization, which we suggest can be studied along several dimensions: not only the ability to learn something novel, but also flexibility in learning from different presentations, and in applying what is learned. We discuss broader connections to past literature in meta-learning and goal-conditioned agents, and other perspectives on learning and adaptation. We close by suggesting that research on in-context learning should consider this broader spectrum of in-context capabilities and types of generalization.

arxiv情報

著者 Andrew Kyle Lampinen,Stephanie C. Y. Chan,Aaditya K. Singh,Murray Shanahan
発行日 2025-06-05 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

Kinetics: Rethinking Test-Time Scaling Laws

要約

実用的な効率の観点からテスト時間のスケーリング法則を再考し、小さなモデルの有効性が大幅に過大評価されていることを明らかにしました。
計算最適性に基づいた以前の作業は、推論時間戦略によって導入された重要なメモリアクセスボトルネックを見落としています(たとえば、ベスト$ n $、ロングコット)。
0.6Bから32Bのパラメーターまでのモデルに及ぶ当社のホリスティック分析は、計算とメモリアクセスコストの両方を組み込むことにより、リソース割り当てをより適切にガイドする新しい動力学スケーリング法則を明らかにしています。
キネティックスのスケーリング法は、小さなものよりもしきい値よりも上のモデルで使用される場合、テスト時間計算がより効果的であることを示唆しています。
主な理由は、TTSでは、パラメーターカウントではなく注意が支配的なコスト係数として現れることです。
これにより動機付けられて、私たちは、トークンあたりのコストが低く、同じリソース予算内でより長い世代とより並列サンプルを可能にする、まばらな注意を中心とした新しいスケーリングパラダイムを提案します。
経験的には、まばらな注意モデルが一貫して密なカウンターパートを上回り、低コストのレジームで60ポイント以上の利益を達成し、高コストのレジームで5ポイント以上の利益を達成し、AIMEの問題解決精度を得るために、最先端のoesの評価を網羅していることを示しています。
これらの結果は、パラメータースケーリングが飽和するトレーニングとは異なり、テスト時間の精度が生成の増加を通じて改善され続けるため、テスト時間スケーリングの完全な可能性を実現するためには、まばらな注意が不可欠であることを示唆しています。
このコードは、https://github.com/infini-ai-lab/kineticsで入手できます。

要約(オリジナル)

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-$N$, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

arxiv情報

著者 Ranajoy Sadhukhan,Zhuoming Chen,Haizhong Zheng,Yang Zhou,Emma Strubell,Beidi Chen
発行日 2025-06-05 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

Search Arena: Analyzing Search-Augmented LLMs

要約

検索の高地言語モデルは、Web検索と大規模な言語モデル(LLMS)を組み合わせて、応答の接地と新鮮さを改善します。
ただし、これらのシステムの分析は依然として困難です。既存のデータセットのスケールが制限されており、範囲が狭く、多くの場合、静的な一ターンのファクトチェックの質問に制約されます。
この作業では、Search-Augmented LLMSとの24,000を超えるペアのマルチターンユーザーインタラクションの群衆が供給された大規模なヒューマンプレーファレンスデータセットであるSearch Arenaを紹介します。
データセットは多様な意図と言語にまたがっており、約12,000の人間の選好票を持つ完全なシステムトレースが含まれています。
私たちの分析では、引用されたコンテンツが認識されたクレームを直接サポートしていない場合でも、ユーザーの好みが引用の数に影響され、知覚された信頼性と実際の信頼性のギャップが明らかになっていることが明らかになりました。
さらに、ユーザーの好みは引用されたソースによって異なり、コミュニティ主導のプラットフォームが一般的に好ましいことを明らかにし、静的百科事典ソースは常に適切で信頼性が高いとは限りません。
さまざまな設定にわたるパフォーマンスを評価するために、汎用チャット環境で検索を実施したLLMをテストし、検索集約型の設定で従来のLLMをテストすることにより、クロスアレナ分析を実施します。
Web検索は劣化せず、検索以外の設定でのパフォーマンスを改善することさえあることがわかります。
ただし、モデルのパラメトリックな知識だけに依存している場合、検索設定の品質は大きな影響を受けます。
この方向での将来の研究をサポートするために、データセットをオープンソーリングしました。
データセットとコードは、https://github.com/lmarena/search-arenaで入手できます。

要約(オリジナル)

Search-augmented language models combine web search with Large Language Models (LLMs) to improve response groundedness and freshness. However, analyzing these systems remains challenging: existing datasets are limited in scale and narrow in scope, often constrained to static, single-turn, fact-checking questions. In this work, we introduce Search Arena, a crowd-sourced, large-scale, human-preference dataset of over 24,000 paired multi-turn user interactions with search-augmented LLMs. The dataset spans diverse intents and languages, and contains full system traces with around 12,000 human preference votes. Our analysis reveals that user preferences are influenced by the number of citations, even when the cited content does not directly support the attributed claims, uncovering a gap between perceived and actual credibility. Furthermore, user preferences vary across cited sources, revealing that community-driven platforms are generally preferred and static encyclopedic sources are not always appropriate and reliable. To assess performance across different settings, we conduct cross-arena analyses by testing search-augmented LLMs in a general-purpose chat environment and conventional LLMs in search-intensive settings. We find that web search does not degrade and may even improve performance in non-search settings; however, the quality in search settings is significantly affected if solely relying on the model’s parametric knowledge. We open-sourced the dataset to support future research in this direction. Our dataset and code are available at: https://github.com/lmarena/search-arena.

arxiv情報

著者 Mihran Miroyan,Tsung-Han Wu,Logan King,Tianle Li,Jiayi Pan,Xinyan Hu,Wei-Lin Chiang,Anastasios N. Angelopoulos,Trevor Darrell,Narges Norouzi,Joseph E. Gonzalez
発行日 2025-06-05 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | コメントする

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

要約

言語モデルは、整合性と評価における人間の好みの判断のプロキシとして機能しますが、系統的な誤りを示し、実質的な資質よりも表面的なパターンを優先します。
このバイアスは、長さ、構造、スタイルなどの機能に過度に依存していると明らかになり、報酬のハッキングや信頼できない評価などの問題につながります。
証拠は、これらのバイアスが人間のトレーニングデータのアーティファクトに由来することを示唆しています。
この作業では、長さ、構造、専門用語、sycophancy、あいまいさの言語モデル世代の5つの特異な特徴にわたる5つの特異な特徴にわたるトレーニングデータバイアスと優先モデルの誤りとの関係を体系的に調査します。
制御された反事実ペアを使用して、最初に、優先モデルが拡大バイアス(スキュー)で応答を促進する範囲を定量化し、この優先性がインスタンスの60%以上で発生し、モデルの好みが人間の好みと比較して高い容疑者(〜40%)を示します。
特に、バイアス機能は、人間の好みラベル(平均R_Human = -0.12)に対する軽度の負の相関のみを示していますが、強力な報酬モデルのラベルと中程度の強い正の相関を示します(平均R_Model = +0.36)。
これらの問題を軽減するために、合成された対照的な例を使用して、反事実的データ増強(CDA)に基づいて、単純なトレーニング後の方法を提案します。
CDAでの微調整モデルは、平均誤りが39.4%から32.5%に減少し、平均絶対スキューの差は20.5%から10.0%に減少し、全体的な報酬ベンチのパフォーマンスを維持し、ターゲットを絞ったデビアスが信頼できる優先モデルの構築に効果的であることを示しています。

要約(オリジナル)

Language models serve as proxies for human preference judgements in alignment and evaluation, yet they exhibit systematic miscalibration, prioritizing superficial patterns over substantive qualities. This bias manifests as overreliance on features like length, structure, and style, leading to issues like reward hacking and unreliable evaluations. Evidence suggests these biases originate in artifacts in human training data. In this work, we systematically investigate the relationship between training data biases and preference model miscalibration across five idiosyncratic features of language model generations: length, structure, jargon, sycophancy and vagueness. Using controlled counterfactual pairs, we first quantify the extent to which preference models favor responses with magnified biases (skew), finding this preference occurs in >60% of instances, and model preferences show high miscalibration (~40%) compared to human preferences. Notably, bias features only show mild negative correlations to human preference labels (mean r_human = -0.12) but show moderately strong positive correlations with labels from a strong reward model (mean r_model = +0.36), suggesting that models may overrely on spurious cues. To mitigate these issues, we propose a simple post-training method based on counterfactual data augmentation (CDA) using synthesized contrastive examples. Finetuning models with CDA reduces average miscalibration from 39.4% to 32.5% and average absolute skew difference from 20.5% to 10.0%, while maintaining overall RewardBench performance, showing that targeted debiasing is effective for building reliable preference models.

arxiv情報

著者 Anirudh Bharadwaj,Chaitanya Malaviya,Nitish Joshi,Mark Yatskar
発行日 2025-06-05 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets

要約

大規模な言語モデル(LLMS)の最近の進歩は、特に下流の微調整を受けた場合、安全アライメントの脱獄に対する脆弱性を強調しています。
ただし、既存の緩和戦略は、主に安全ガードレールが侵害された後に脱獄事件に対処することに焦点を当てており、微調整中に有害な勾配を除去するか、微調整中の安全アライメントを継続的に強化します。
そのため、それらは重要な上流要因、つまり元の安全整列データの役割を見落とす傾向があります。
したがって、このペーパーでは、上流のアライメントデータセットと下流の微調整タスクの間の表現の類似性のレンズを介した安全ガードレールの分解を調査します。
私たちの実験は、これらのデータセット間の高い類似性が安全ガードレールを大幅に弱め、モデルを脱獄の影響を受けやすくすることを示しています。
逆に、これら2つのタイプのデータセット間の類似性が低いと、実質的に堅牢なモデルが生成されるため、有害スコアが最大10.33%減少します。
耐久性のある安全ガードレールの構築における上流のデータセット設計の重要性を強調し、脱獄攻撃に対する現実世界の脆弱性を減らすことにより、これらの調査結果は、微調整サービスプロバイダーに実用的な洞察を提供します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have underscored their vulnerability to safety alignment jailbreaks, particularly when subjected to downstream fine-tuning. However, existing mitigation strategies primarily focus on reactively addressing jailbreak incidents after safety guardrails have been compromised, removing harmful gradients during fine-tuning, or continuously reinforcing safety alignment throughout fine-tuning. As such, they tend to overlook a critical upstream factor: the role of the original safety-alignment data. This paper therefore investigates the degradation of safety guardrails through the lens of representation similarity between upstream alignment datasets and downstream fine-tuning tasks. Our experiments demonstrate that high similarity between these datasets significantly weakens safety guardrails, making models more susceptible to jailbreaks. Conversely, low similarity between these two types of datasets yields substantially more robust models and thus reduces harmfulness score by up to 10.33%. By highlighting the importance of upstream dataset design in the building of durable safety guardrails and reducing real-world vulnerability to jailbreak attacks, these findings offer actionable insights for fine-tuning service providers.

arxiv情報

著者 Lei Hsiung,Tianyu Pang,Yung-Chen Tang,Linyue Song,Tsung-Yi Ho,Pin-Yu Chen,Yaoqing Yang
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | コメントする

Inference-Time Hyper-Scaling with KV Cache Compression

要約

より長い並列シーケンスを生成することにより、推論時のスケーリング取引効率を推論する効率を高めます。
ただし、変圧器LLMSでは、生成コストは、生成されたトークンの数ではなく、キー価値(kV)キャッシュのサイズによってボトルネックされています。
したがって、推論時間のハイパースケーリングを調査します。KVキャッシュを圧縮することにより、同じ計算予算内でより多くのトークンを生成し、スケーリングされた推論の精度をさらに向上させることができます。
しかし、このアプローチの成功は、高圧縮率であっても精度を維持する圧縮方法の能力にかかっています。
ハイパースケーリングを実用的にするために、ダイナミックメモリスパル化(DMS)を導入します。これは、トレーニングフリースパースの注意よりも優れた精度を維持しながら、8 $ \ Times $の圧縮を達成するために1Kトレーニングステップのみを必要とするKVキャッシュをスパースする新しい方法です。
キャッシュされたトークンを早期に廃棄する代わりに、DMSはトークンの立ち退きを遅らせ、表現を暗黙的に統合し、重要な情報を保存します。
LLMSの複数のファミリーでDMSを使用した推論時間ハイパースケーリングの有効性を実証し、同等の推論ランタイムとメモリ負荷の精度を高めることを示しています。
たとえば、QWEN-R1 32BをAIME 24で平均9.1ポイント、GPQAで7.6、LiveCodebenchで9.6を計算予算全体で強化します。

要約(オリジナル)

Inference-time scaling trades efficiency for increased reasoning accuracy by generating longer or more parallel sequences. However, in Transformer LLMs, generation cost is bottlenecked by the size of the key-value (KV) cache, rather than the number of generated tokens. Hence, we explore inference-time hyper-scaling: by compressing the KV cache, we can generate more tokens within the same compute budget and further improve the accuracy of scaled inference. The success of this approach, however, hinges on the ability of compression methods to preserve accuracy even at high compression ratios. To make hyper-scaling practical, we introduce Dynamic Memory Sparsification (DMS), a novel method for sparsifying KV caches that only requires 1K training steps to achieve 8$\times$ compression, while maintaining better accuracy than training-free sparse attention. Instead of prematurely discarding cached tokens, DMS delays token eviction, implicitly merging representations and preserving critical information. We demonstrate the effectiveness of inference-time hyper-scaling with DMS on multiple families of LLMs, showing that it boosts accuracy for comparable inference runtime and memory load. For instance, we enhance Qwen-R1 32B by an average of 9.1 points on AIME 24, 7.6 on GPQA, and 9.6 on LiveCodeBench across compute budgets.

arxiv情報

著者 Adrian Łańcucki,Konrad Staniszewski,Piotr Nawrot,Edoardo M. Ponti
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする