The broader spectrum of in-context learning

要約

文脈のいくつかの例からタスクを学ぶ言語モデルの能力は、大きな関心を生み出しました。
ここでは、このタイプの監督された少数の学習を、メタ学習中のコンテキスト学習のはるかに広いスペクトル内で位置づける視点を提供します。
確かに、コンテキストがその後の予測の損失を非文脈的に減少させるシーケンスの分布は、コンテキスト内学習の一種を誘発するものとして解釈できることを提案します。
この視点は、言語モデルが示す一連のコンテキスト内能力を統一するのに役立つことを提案します – 命令やロールプレイからのタスクに適応したり、時系列の外挿。
この視点は、言語依存関係の低レベルの処理におけるコンテキスト内学習の潜在的な根にも光を当てています(例えば、コアファレンスまたは並列構造)。
最後に、この視点をとると、一般化の重要性が強調されています。これは、いくつかの次元に沿って研究することができます。斬新なことを学ぶ能力だけでなく、さまざまなプレゼンテーションから学習し、学んだことを適用する柔軟性も強調しています。
メタ学習および目標条件付けされたエージェント、および学習と適応に関するその他の視点における過去の文献とのより広範なつながりについて説明します。
コンテキスト内学習に関する研究は、コンテキスト内の能力と一般化の種類のこの広範なスペクトルを考慮すべきであることを示唆しています。

要約(オリジナル)

The ability of language models to learn a task from a few examples in context has generated substantial interest. Here, we provide a perspective that situates this type of supervised few-shot learning within a much broader spectrum of meta-learned in-context learning. Indeed, we suggest that any distribution of sequences in which context non-trivially decreases loss on subsequent predictions can be interpreted as eliciting a kind of in-context learning. We suggest that this perspective helps to unify the broad set of in-context abilities that language models exhibit — such as adapting to tasks from instructions or role play, or extrapolating time series. This perspective also sheds light on potential roots of in-context learning in lower-level processing of linguistic dependencies (e.g. coreference or parallel structures). Finally, taking this perspective highlights the importance of generalization, which we suggest can be studied along several dimensions: not only the ability to learn something novel, but also flexibility in learning from different presentations, and in applying what is learned. We discuss broader connections to past literature in meta-learning and goal-conditioned agents, and other perspectives on learning and adaptation. We close by suggesting that research on in-context learning should consider this broader spectrum of in-context capabilities and types of generalization.

arxiv情報

著者 Andrew Kyle Lampinen,Stephanie C. Y. Chan,Aaditya K. Singh,Murray Shanahan
発行日 2025-06-05 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | The broader spectrum of in-context learning はコメントを受け付けていません

Kinetics: Rethinking Test-Time Scaling Laws

要約

実用的な効率の観点からテスト時間のスケーリング法則を再考し、小さなモデルの有効性が大幅に過大評価されていることを明らかにしました。
計算最適性に基づいた以前の作業は、推論時間戦略によって導入された重要なメモリアクセスボトルネックを見落としています(たとえば、ベスト$ n $、ロングコット)。
0.6Bから32Bのパラメーターまでのモデルに及ぶ当社のホリスティック分析は、計算とメモリアクセスコストの両方を組み込むことにより、リソース割り当てをより適切にガイドする新しい動力学スケーリング法則を明らかにしています。
キネティックスのスケーリング法は、小さなものよりもしきい値よりも上のモデルで使用される場合、テスト時間計算がより効果的であることを示唆しています。
主な理由は、TTSでは、パラメーターカウントではなく注意が支配的なコスト係数として現れることです。
これにより動機付けられて、私たちは、トークンあたりのコストが低く、同じリソース予算内でより長い世代とより並列サンプルを可能にする、まばらな注意を中心とした新しいスケーリングパラダイムを提案します。
経験的には、まばらな注意モデルが一貫して密なカウンターパートを上回り、低コストのレジームで60ポイント以上の利益を達成し、高コストのレジームで5ポイント以上の利益を達成し、AIMEの問題解決精度を得るために、最先端のoesの評価を網羅していることを示しています。
これらの結果は、パラメータースケーリングが飽和するトレーニングとは異なり、テスト時間の精度が生成の増加を通じて改善され続けるため、テスト時間スケーリングの完全な可能性を実現するためには、まばらな注意が不可欠であることを示唆しています。
このコードは、https://github.com/infini-ai-lab/kineticsで入手できます。

要約(オリジナル)

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-$N$, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

arxiv情報

著者 Ranajoy Sadhukhan,Zhuoming Chen,Haizhong Zheng,Yang Zhou,Emma Strubell,Beidi Chen
発行日 2025-06-05 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Kinetics: Rethinking Test-Time Scaling Laws はコメントを受け付けていません

Search Arena: Analyzing Search-Augmented LLMs

要約

検索の高地言語モデルは、Web検索と大規模な言語モデル(LLMS)を組み合わせて、応答の接地と新鮮さを改善します。
ただし、これらのシステムの分析は依然として困難です。既存のデータセットのスケールが制限されており、範囲が狭く、多くの場合、静的な一ターンのファクトチェックの質問に制約されます。
この作業では、Search-Augmented LLMSとの24,000を超えるペアのマルチターンユーザーインタラクションの群衆が供給された大規模なヒューマンプレーファレンスデータセットであるSearch Arenaを紹介します。
データセットは多様な意図と言語にまたがっており、約12,000の人間の選好票を持つ完全なシステムトレースが含まれています。
私たちの分析では、引用されたコンテンツが認識されたクレームを直接サポートしていない場合でも、ユーザーの好みが引用の数に影響され、知覚された信頼性と実際の信頼性のギャップが明らかになっていることが明らかになりました。
さらに、ユーザーの好みは引用されたソースによって異なり、コミュニティ主導のプラットフォームが一般的に好ましいことを明らかにし、静的百科事典ソースは常に適切で信頼性が高いとは限りません。
さまざまな設定にわたるパフォーマンスを評価するために、汎用チャット環境で検索を実施したLLMをテストし、検索集約型の設定で従来のLLMをテストすることにより、クロスアレナ分析を実施します。
Web検索は劣化せず、検索以外の設定でのパフォーマンスを改善することさえあることがわかります。
ただし、モデルのパラメトリックな知識だけに依存している場合、検索設定の品質は大きな影響を受けます。
この方向での将来の研究をサポートするために、データセットをオープンソーリングしました。
データセットとコードは、https://github.com/lmarena/search-arenaで入手できます。

要約(オリジナル)

Search-augmented language models combine web search with Large Language Models (LLMs) to improve response groundedness and freshness. However, analyzing these systems remains challenging: existing datasets are limited in scale and narrow in scope, often constrained to static, single-turn, fact-checking questions. In this work, we introduce Search Arena, a crowd-sourced, large-scale, human-preference dataset of over 24,000 paired multi-turn user interactions with search-augmented LLMs. The dataset spans diverse intents and languages, and contains full system traces with around 12,000 human preference votes. Our analysis reveals that user preferences are influenced by the number of citations, even when the cited content does not directly support the attributed claims, uncovering a gap between perceived and actual credibility. Furthermore, user preferences vary across cited sources, revealing that community-driven platforms are generally preferred and static encyclopedic sources are not always appropriate and reliable. To assess performance across different settings, we conduct cross-arena analyses by testing search-augmented LLMs in a general-purpose chat environment and conventional LLMs in search-intensive settings. We find that web search does not degrade and may even improve performance in non-search settings; however, the quality in search settings is significantly affected if solely relying on the model’s parametric knowledge. We open-sourced the dataset to support future research in this direction. Our dataset and code are available at: https://github.com/lmarena/search-arena.

arxiv情報

著者 Mihran Miroyan,Tsung-Han Wu,Logan King,Tianle Li,Jiayi Pan,Xinyan Hu,Wei-Lin Chiang,Anastasios N. Angelopoulos,Trevor Darrell,Narges Norouzi,Joseph E. Gonzalez
発行日 2025-06-05 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Search Arena: Analyzing Search-Augmented LLMs はコメントを受け付けていません

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

要約

言語モデルは、整合性と評価における人間の好みの判断のプロキシとして機能しますが、系統的な誤りを示し、実質的な資質よりも表面的なパターンを優先します。
このバイアスは、長さ、構造、スタイルなどの機能に過度に依存していると明らかになり、報酬のハッキングや信頼できない評価などの問題につながります。
証拠は、これらのバイアスが人間のトレーニングデータのアーティファクトに由来することを示唆しています。
この作業では、長さ、構造、専門用語、sycophancy、あいまいさの言語モデル世代の5つの特異な特徴にわたる5つの特異な特徴にわたるトレーニングデータバイアスと優先モデルの誤りとの関係を体系的に調査します。
制御された反事実ペアを使用して、最初に、優先モデルが拡大バイアス(スキュー)で応答を促進する範囲を定量化し、この優先性がインスタンスの60%以上で発生し、モデルの好みが人間の好みと比較して高い容疑者(〜40%)を示します。
特に、バイアス機能は、人間の好みラベル(平均R_Human = -0.12)に対する軽度の負の相関のみを示していますが、強力な報酬モデルのラベルと中程度の強い正の相関を示します(平均R_Model = +0.36)。
これらの問題を軽減するために、合成された対照的な例を使用して、反事実的データ増強(CDA)に基づいて、単純なトレーニング後の方法を提案します。
CDAでの微調整モデルは、平均誤りが39.4%から32.5%に減少し、平均絶対スキューの差は20.5%から10.0%に減少し、全体的な報酬ベンチのパフォーマンスを維持し、ターゲットを絞ったデビアスが信頼できる優先モデルの構築に効果的であることを示しています。

要約(オリジナル)

Language models serve as proxies for human preference judgements in alignment and evaluation, yet they exhibit systematic miscalibration, prioritizing superficial patterns over substantive qualities. This bias manifests as overreliance on features like length, structure, and style, leading to issues like reward hacking and unreliable evaluations. Evidence suggests these biases originate in artifacts in human training data. In this work, we systematically investigate the relationship between training data biases and preference model miscalibration across five idiosyncratic features of language model generations: length, structure, jargon, sycophancy and vagueness. Using controlled counterfactual pairs, we first quantify the extent to which preference models favor responses with magnified biases (skew), finding this preference occurs in >60% of instances, and model preferences show high miscalibration (~40%) compared to human preferences. Notably, bias features only show mild negative correlations to human preference labels (mean r_human = -0.12) but show moderately strong positive correlations with labels from a strong reward model (mean r_model = +0.36), suggesting that models may overrely on spurious cues. To mitigate these issues, we propose a simple post-training method based on counterfactual data augmentation (CDA) using synthesized contrastive examples. Finetuning models with CDA reduces average miscalibration from 39.4% to 32.5% and average absolute skew difference from 20.5% to 10.0%, while maintaining overall RewardBench performance, showing that targeted debiasing is effective for building reliable preference models.

arxiv情報

著者 Anirudh Bharadwaj,Chaitanya Malaviya,Nitish Joshi,Mark Yatskar
発行日 2025-06-05 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models はコメントを受け付けていません

Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets

要約

大規模な言語モデル(LLMS)の最近の進歩は、特に下流の微調整を受けた場合、安全アライメントの脱獄に対する脆弱性を強調しています。
ただし、既存の緩和戦略は、主に安全ガードレールが侵害された後に脱獄事件に対処することに焦点を当てており、微調整中に有害な勾配を除去するか、微調整中の安全アライメントを継続的に強化します。
そのため、それらは重要な上流要因、つまり元の安全整列データの役割を見落とす傾向があります。
したがって、このペーパーでは、上流のアライメントデータセットと下流の微調整タスクの間の表現の類似性のレンズを介した安全ガードレールの分解を調査します。
私たちの実験は、これらのデータセット間の高い類似性が安全ガードレールを大幅に弱め、モデルを脱獄の影響を受けやすくすることを示しています。
逆に、これら2つのタイプのデータセット間の類似性が低いと、実質的に堅牢なモデルが生成されるため、有害スコアが最大10.33%減少します。
耐久性のある安全ガードレールの構築における上流のデータセット設計の重要性を強調し、脱獄攻撃に対する現実世界の脆弱性を減らすことにより、これらの調査結果は、微調整サービスプロバイダーに実用的な洞察を提供します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have underscored their vulnerability to safety alignment jailbreaks, particularly when subjected to downstream fine-tuning. However, existing mitigation strategies primarily focus on reactively addressing jailbreak incidents after safety guardrails have been compromised, removing harmful gradients during fine-tuning, or continuously reinforcing safety alignment throughout fine-tuning. As such, they tend to overlook a critical upstream factor: the role of the original safety-alignment data. This paper therefore investigates the degradation of safety guardrails through the lens of representation similarity between upstream alignment datasets and downstream fine-tuning tasks. Our experiments demonstrate that high similarity between these datasets significantly weakens safety guardrails, making models more susceptible to jailbreaks. Conversely, low similarity between these two types of datasets yields substantially more robust models and thus reduces harmfulness score by up to 10.33%. By highlighting the importance of upstream dataset design in the building of durable safety guardrails and reducing real-world vulnerability to jailbreak attacks, these findings offer actionable insights for fine-tuning service providers.

arxiv情報

著者 Lei Hsiung,Tianyu Pang,Yung-Chen Tang,Linyue Song,Tsung-Yi Ho,Pin-Yu Chen,Yaoqing Yang
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets はコメントを受け付けていません

Inference-Time Hyper-Scaling with KV Cache Compression

要約

より長い並列シーケンスを生成することにより、推論時のスケーリング取引効率を推論する効率を高めます。
ただし、変圧器LLMSでは、生成コストは、生成されたトークンの数ではなく、キー価値(kV)キャッシュのサイズによってボトルネックされています。
したがって、推論時間のハイパースケーリングを調査します。KVキャッシュを圧縮することにより、同じ計算予算内でより多くのトークンを生成し、スケーリングされた推論の精度をさらに向上させることができます。
しかし、このアプローチの成功は、高圧縮率であっても精度を維持する圧縮方法の能力にかかっています。
ハイパースケーリングを実用的にするために、ダイナミックメモリスパル化(DMS)を導入します。これは、トレーニングフリースパースの注意よりも優れた精度を維持しながら、8 $ \ Times $の圧縮を達成するために1Kトレーニングステップのみを必要とするKVキャッシュをスパースする新しい方法です。
キャッシュされたトークンを早期に廃棄する代わりに、DMSはトークンの立ち退きを遅らせ、表現を暗黙的に統合し、重要な情報を保存します。
LLMSの複数のファミリーでDMSを使用した推論時間ハイパースケーリングの有効性を実証し、同等の推論ランタイムとメモリ負荷の精度を高めることを示しています。
たとえば、QWEN-R1 32BをAIME 24で平均9.1ポイント、GPQAで7.6、LiveCodebenchで9.6を計算予算全体で強化します。

要約(オリジナル)

Inference-time scaling trades efficiency for increased reasoning accuracy by generating longer or more parallel sequences. However, in Transformer LLMs, generation cost is bottlenecked by the size of the key-value (KV) cache, rather than the number of generated tokens. Hence, we explore inference-time hyper-scaling: by compressing the KV cache, we can generate more tokens within the same compute budget and further improve the accuracy of scaled inference. The success of this approach, however, hinges on the ability of compression methods to preserve accuracy even at high compression ratios. To make hyper-scaling practical, we introduce Dynamic Memory Sparsification (DMS), a novel method for sparsifying KV caches that only requires 1K training steps to achieve 8$\times$ compression, while maintaining better accuracy than training-free sparse attention. Instead of prematurely discarding cached tokens, DMS delays token eviction, implicitly merging representations and preserving critical information. We demonstrate the effectiveness of inference-time hyper-scaling with DMS on multiple families of LLMs, showing that it boosts accuracy for comparable inference runtime and memory load. For instance, we enhance Qwen-R1 32B by an average of 9.1 points on AIME 24, 7.6 on GPQA, and 9.6 on LiveCodeBench across compute budgets.

arxiv情報

著者 Adrian Łańcucki,Konrad Staniszewski,Piotr Nawrot,Edoardo M. Ponti
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Inference-Time Hyper-Scaling with KV Cache Compression はコメントを受け付けていません

Does It Make Sense to Speak of Introspection in Large Language Models?

要約

大規模な言語モデル(LLM)は、魅力的な言語行動を示し、時には自己報告を提供します。
人間では、そのような報告はしばしば内省の学部に起因し、通常意識に関連しています。
これは、LLMSによって生成された自己報告をどのように解釈するかという問題を提起します。
内省の概念をどの程度(もしあれば)LLMに有意義に適用できますか?
ここでは、LLMSからの見かけの内省的自己報告の2つの例を提示し、批評します。
最初の例では、LLMは独自の「クリエイティブ」な執筆の背後にあるプロセスを説明しようとします。これは内省の有効な例ではないと主張します。
2番目の例では、LLMは独自の温度パラメーターの値を正しく推進します。これは、(おそらく)意識的な経験を伴わない(おそらく)内省の最小限の例と見なすことができると主張します。

要約(オリジナル)

Large language models (LLMs) exhibit compelling linguistic behaviour, and sometimes offer self-reports, that is to say statements about their own nature, inner workings, or behaviour. In humans, such reports are often attributed to a faculty of introspection and are typically linked to consciousness. This raises the question of how to interpret self-reports produced by LLMs, given their increasing linguistic fluency and cognitive capabilities. To what extent (if any) can the concept of introspection be meaningfully applied to LLMs? Here, we present and critique two examples of apparent introspective self-report from LLMs. In the first example, an LLM attempts to describe the process behind its own “creative” writing, and we argue this is not a valid example of introspection. In the second example, an LLM correctly infers the value of its own temperature parameter, and we argue that this can be legitimately considered a minimal example of introspection, albeit one that is (presumably) not accompanied by conscious experience.

arxiv情報

著者 Iulia Comşa,Murray Shanahan
発行日 2025-06-05 14:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Does It Make Sense to Speak of Introspection in Large Language Models? はコメントを受け付けていません

Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation

要約

大規模な言語モデル(LLMS)の進歩に駆られ、それらを推奨タスクに統合することで、強力な意味的理解と迅速な柔軟性により関心が高まっています。
以前の作業は、ユーザーとアイテムのインタラクションまたはメタデータを推奨のプロンプトにエンコードしました。
並行して、テスト時間のスケーリングと強化学習によって後押しされたLLM推論は、数学やコードなどの分野で優れており、推論の痕跡と正確さの信号が明確で、高性能と解釈可能性を可能にします。
ただし、ユーザーのフィードバックが暗黙的であり、推論の監督がないため、これらの推論方法を推奨に直接適用することは効果がありません。
これに対処するために、$ \ textbf {r2rec} $を提案します。これは、ユーザーのアイテムグラフからの相互作用チェーンをサンプリングし、それらを構造化されたマスクプロンプト戦略を介して構造化された相互作用に変換する推論強化された推奨フレームワークを提案します。
これにより、LLMは暗黙的なパターンに基づいて段階的な意思決定をシミュレートできます。
2段階のトレーニングパイプラインを設計します。監視された微調整は、高品質の痕跡からの基本的な推論を教え、補強学習は報酬信号を介して推論を改善し、まばらな明示的な監督を緩和します。
3つの実際のデータセットでの実験では、R2RECがクラシックおよびLLMベースのベースラインを平均$ \ textBF {10.48%} $のhitratio@1および$ \ textBf {131.81%} $の元のLLMを上回ることを示しています。
さらに、明示的な推論チェーンは、決定プロセスを明らかにすることにより、解釈性を高めます。
私たちのコードは、https://anonymous.4open.science/r/r2rec-7c5dで入手できます。

要約(オリジナル)

Driven by advances in Large Language Models (LLMs), integrating them into recommendation tasks has gained interest due to their strong semantic understanding and prompt flexibility. Prior work encoded user-item interactions or metadata into prompts for recommendations. In parallel, LLM reasoning, boosted by test-time scaling and reinforcement learning, has excelled in fields like mathematics and code, where reasoning traces and correctness signals are clear, enabling high performance and interpretability. However, directly applying these reasoning methods to recommendation is ineffective because user feedback is implicit and lacks reasoning supervision. To address this, we propose $\textbf{R2Rec}$, a reasoning-enhanced recommendation framework that samples interaction chains from the user-item graph and converts them into structured interaction-of-thoughts via a progressive masked prompting strategy, with each thought representing stepwise reasoning grounded in interaction context. This allows LLMs to simulate step-by-step decision-making based on implicit patterns. We design a two-stage training pipeline: supervised fine-tuning teaches basic reasoning from high-quality traces, and reinforcement learning refines reasoning via reward signals, alleviating sparse explicit supervision. Experiments on three real-world datasets show R2Rec outperforms classical and LLM-based baselines with an average $\textbf{10.48%}$ improvement in HitRatio@1 and $\textbf{131.81%}$ gain over the original LLM. Furthermore, the explicit reasoning chains enhance interpretability by revealing the decision process. Our code is available at: https://anonymous.4open.science/r/R2Rec-7C5D.

arxiv情報

著者 Keyu Zhao,Fengli Xu,Yong Li
発行日 2025-06-05 14:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation はコメントを受け付けていません

GoRA: Gradient-driven Adaptive Low Rank Adaptation

要約

低ランク適応(LORA)は、ランクの選択と重量の初期化という2つの重要な要因に影響される、その有効性を効率的に微調整するための重要な方法(LLMS)です。
これらの側面の1つに対処することでパフォーマンスを改善するために多数のLORAバリエーションが提案されていますが、それらはしばしば使いやすさや計算効率を妥協します。
この論文では、既存のアプローチの中核的な制限を分析および特定し、統一されたフレームワーク内でランクと初期化戦略の両方を同時に適応させる新しいフレームワーク(勾配駆動型の適応低ランク適応)を提案します。
Goraは、トレーニング中に勾配情報を活用して、最適なランクを動的に割り当て、低ランクアダプターの重みを適応的に初期化します。
私たちの知る限り、ゴラは、ランクの選択または単独の初期化に焦点を当てた以前のアプローチの制限に対処するだけでなく、単一のフレームワーク内の両方の側面を統一し、より効果的で効率的な適応を可能にする最初の方法です。
さまざまなアーキテクチャとモダリティにわたる広範な実験は、Goraがバニラロラの効率を維持しながら、既存のロラベースの方法を常に上回ることを示しています。
たとえば、数学的な推論のためにllama3.1-8bベースを微調整する場合、Goraは標準のLORAよりも5.13ポイントの改善を達成し、高ランクの設定で2.05ポイントの完全な微調整を上回ります。

要約(オリジナル)

Low-Rank Adaptation (LoRA) is a crucial method for efficiently fine-tuning large language models (LLMs), with its effectiveness influenced by two key factors: rank selection and weight initialization. While numerous LoRA variants have been proposed to improve performance by addressing one of these aspects, they often compromise usability or computational efficiency. In this paper, we analyze and identify the core limitations of existing approaches and propose a novel framework — GoRA (Gradient-driven Adaptive Low Rank Adaptation) — that simultaneously adapts both the rank and initialization strategy within a unified framework. GoRA leverages gradient information during training to dynamically assign optimal ranks and initialize low-rank adapter weights in an adaptive manner. To our knowledge, GoRA is the first method that not only addresses the limitations of prior approaches — which often focus on either rank selection or initialization in isolation — but also unifies both aspects within a single framework, enabling more effective and efficient adaptation. Extensive experiments across various architectures and modalities show that GoRA consistently outperforms existing LoRA-based methods while preserving the efficiency of vanilla LoRA. For example, when fine-tuning Llama3.1-8B-Base for mathematical reasoning, GoRA achieves a 5.13-point improvement over standard LoRA and even outperforms full fine-tuning by 2.05 points under high-rank settings.

arxiv情報

著者 Haonan He,Peng Ye,Yuchen Ren,Yuan Yuan,Luyang Zhou,Shucun Ju,Lei Chen
発行日 2025-06-05 14:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | GoRA: Gradient-driven Adaptive Low Rank Adaptation はコメントを受け付けていません

Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation

要約

大規模な言語モデル(LLM)は、英語を含む多くの言語で自然言語理解(NLU)タスクで非常にうまく機能します。
しかし、世界で5番目に発言された言語であるにもかかわらず、バングラの文法誤差補正(GEC)は未発達のままです。
この作業では、バングラGECを改善するためにLLMSを活用する方法を調査します。
そのために、最初にバングラで12のエラークラスを広範囲に分類し、ネイティブバングラスピーカーの調査を行って、実際のエラーを収集します。
次に、正しいものに対応する文法的に間違った文を作成するためのルールベースのノイズインジェクション方法を考案します。
このように作成されたVaiyakaranaデータセットは、5,67,422文で構成され、そのうち2,27,119は誤っています。
このデータセットは、バングラのGECのタスクについてLLMSを指示するために使用されます。
評価によると、\名を使用した命令調整により、ゼロショット設定と比較してLLMSのGECパフォーマンスが3-7パーセントポイント改善され、文法エラーの識別において人間のようなパフォーマンスを達成することが示されています。
しかし、人間は誤差の補正において優れたままです。

要約(オリジナル)

Large Language Models (LLMs) perform exceedingly well in Natural Language Understanding (NLU) tasks for many languages including English. However, despite being the fifth most-spoken language globally, Grammatical Error Correction (GEC) in Bangla remains underdeveloped. In this work, we investigate how LLMs can be leveraged for improving Bangla GEC. For that, we first do an extensive categorization of 12 error classes in Bangla, and take a survey of native Bangla speakers to collect real-world errors. We next devise a rule-based noise injection method to create grammatically incorrect sentences corresponding to correct ones. The Vaiyakarana dataset, thus created, consists of 5,67,422 sentences of which 2,27,119 are erroneous. This dataset is then used to instruction-tune LLMs for the task of GEC in Bangla. Evaluations show that instruction-tuning with \name improves GEC performance of LLMs by 3-7 percentage points as compared to the zero-shot setting, and makes them achieve human-like performance in grammatical error identification. Humans, though, remain superior in error correction.

arxiv情報

著者 Pramit Bhattacharyya,Arnab Bhattacharya
発行日 2025-06-05 14:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation はコメントを受け付けていません