Cognitive Prompts Using Guilford’s Structure of Intellect Model

要約

大規模言語モデル(LLM)は強力な言語生成能力を示すが、構造化推論に苦戦することが多く、一貫性のない、あるいは最適でない問題解決につながる。この制限を緩和するために、知能理論の基礎フレームワークであるギルフォードの知性の構造(SOI)モデルが、認知プロンプト工学の基礎として活用されている。SOIモデルは、パターン認識、記憶検索、評価などの認知操作を分類し、LLMの推論と意思決定を強化する体系的なアプローチを提供する。本ポジションペーパーでは、モデル応答における明確性、一貫性、適応性を向上させるために、SOIにインスパイアされた推論を実施するための新しい認知プロンプトアプローチを提示する。

要約(オリジナル)

Large language models (LLMs) demonstrate strong language generation capabilities but often struggle with structured reasoning, leading to inconsistent or suboptimal problem-solving. To mitigate this limitation, Guilford’s Structure of Intellect (SOI) model – a foundational framework from intelligence theory – is leveraged as the basis for cognitive prompt engineering. The SOI model categorizes cognitive operations such as pattern recognition, memory retrieval, and evaluation, offering a systematic approach to enhancing LLM reasoning and decision-making. This position paper presents a novel cognitive prompting approach for enforcing SOI-inspired reasoning for improving clarity, coherence, and adaptability in model responses.

arxiv情報

著者 Oliver Kramer
発行日 2025-04-03 09:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Cognitive Prompts Using Guilford’s Structure of Intellect Model はコメントを受け付けていません

VinaBench: Benchmark for Faithful and Consistent Visual Narratives

要約

ビジュアル・ナラティブ生成は、テキスト・ナラティブを、テキストの内容を説明する画像のシーケンスに変換する。しかしながら、入力テキストに忠実で、生成された画像間で自己整合的な視覚的物語を生成することは、物語を計画するために使用される知識制約がないため、未解決の課題のままである。本研究では、この課題を解決するために、新しいベンチマークであるVinaBenchを提案する。このベンチマークは、視覚的ストーリーテリングの暗黙の戦略を学習するための体系的な足場を提供することで、視覚的ストーリーテリングのサンプルの基礎となる常識的制約と談話制約を注釈する。組み込まれた物語制約に基づき、我々はさらに、生成された物語画像の一貫性と、入力されたテキスト物語との世代の整合を綿密に評価するための新しいメトリクスを提案する。3つの生成視覚モデルにわたる我々の結果は、VinaBenchの知識制約を用いた学習が、生成された視覚的物語の忠実性と結束性を効果的に改善することを示している。

要約(オリジナル)

Visual narrative generation transforms textual narratives into sequences of images illustrating the content of the text. However, generating visual narratives that are faithful to the input text and self-consistent across generated images remains an open challenge, due to the lack of knowledge constraints used for planning the stories. In this work, we propose a new benchmark, VinaBench, to address this challenge. Our benchmark annotates the underlying commonsense and discourse constraints in visual narrative samples, offering systematic scaffolds for learning the implicit strategies of visual storytelling. Based on the incorporated narrative constraints, we further propose novel metrics to closely evaluate the consistency of generated narrative images and the alignment of generations with the input textual narrative. Our results across three generative vision models demonstrate that learning with VinaBench’s knowledge constraints effectively improves the faithfulness and cohesion of generated visual narratives.

arxiv情報

著者 Silin Gao,Sheryl Mathew,Li Mi,Sepideh Mamooler,Mengjie Zhao,Hiromi Wakaki,Yuki Mitsufuji,Syrielle Montariol,Antoine Bosselut
発行日 2025-04-03 09:28:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | VinaBench: Benchmark for Faithful and Consistent Visual Narratives はコメントを受け付けていません

SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

要約

ニューラル・サロゲート・モデルは、データマイニングにおける強力かつ効率的なツールとして登場した。一方、大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を発揮している。我々は、コード実行予測のためのサロゲートモデルとしてLLMを使用するという新しいアプリケーションを調査する。LLMが多様なプログラムを理解し処理するユニークな能力を持つことから、汎用的なサロゲートモデルを構築するための有望な方向性を示している。この能力を系統的に調査するために、我々はSURGEを導入する。SURGEは、多言語プログラミングタスク、競争レベルのプログラミング問題、リポジトリレベルのコード解析、高コスト科学計算、時間-完全性集約アルゴリズム、バグコード解析、特定のコンパイラや実行環境に依存するプログラム、形式的数学証明検証など、$8$の主要な側面をカバーする$1160$の問題を含む包括的ベンチマークである。21$のオープンソースとプロプライエタリのLLMの広範な実証分析を通じて、スケーリング法則、データ効率、予測精度を検証する。我々の発見は、計算プロセスの効率的なサロゲートとしてのLLMの実現可能性に関する重要な洞察を明らかにし、自動ソフトウェアテスト、プログラム解析、データマイニングアプリケーションにおける計算リソースの最適化に示唆を与える。コードとデータセットはhttps://github.com/Imbernoulli/SURGE。

要約(オリジナル)

Neural surrogate models have emerged as powerful and efficient tools in data mining. Meanwhile, large language models (LLMs) have demonstrated remarkable capabilities in code-related tasks. We investigate a novel application: using LLMs as surrogate models for code execution prediction. Given LLMs’ unique ability to understand and process diverse programs, they present a promising direction for building general-purpose surrogate models. To systematically investigate this capability, we introduce SURGE, a comprehensive benchmark with $1160$ problems covering $8$ key aspects: multi-language programming tasks, competition-level programming problems, repository-level code analysis, high-cost scientific computing, time-complexity-intensive algorithms, buggy code analysis, programs dependent on specific compilers or execution environments, and formal mathematical proof verification. Through extensive empirical analysis of $21$ open-source and proprietary LLMs, we examine scaling laws, data efficiency, and predictive accuracy. Our findings reveal important insights about the feasibility of LLMs as efficient surrogates for computational processes, with implications for automated software testing, program analysis, and computational resource optimization in data mining applications. Code and dataset are released at https://github.com/Imbernoulli/SURGE.

arxiv情報

著者 Bohan Lyu,Siqiao Huang,Zichen Liang,Qi-An Sun,Jiaming Zhang
発行日 2025-04-03 09:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors はコメントを受け付けていません

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

要約

長時間のビデオ処理は、視覚言語モデル(VLM)に大きな課題を与える。既存のトークン刈り込みや特徴マージは、しばしば重要な時間依存性を犠牲にしたり、意味情報を薄めたりする。我々は、冗長性を抑制しつつ、タスクに関連する情報を系統的に保存する原理的アプローチである差分蒸留を導入する。この原理に基づき、我々はViLaMPを開発した。ViLaMPは、2つの主要なメカニズム、(1)フレームレベルで時間的な識別性を維持しながらクエリの関連性を最大化する差分キーフレーム選択と、(2)パッチレベルで非キーフレーム中のクエリに有効な特徴を維持する差分特徴マージによって、1時間の動画を“混合精度”で処理する階層型動画像言語モデルである。従って、ViLaMPはキーフレーム内の全情報を保持する一方で、非キーフレームを最も顕著な特徴に縮小し、混合精度の学習に似ている。広範な実験により、ViLaMPが4つのビデオ理解ベンチマークにおいて、特に長編コンテンツにおいて優れた性能を発揮することが実証された。特に、ViLaMPは1つのNVIDIA A100 GPUで超長時間動画(最大10Kフレーム)を処理することができ、最先端の性能を維持しながら大幅な計算効率を達成しています。

要約(オリジナル)

Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at “mixed precision” through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP’s superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.

arxiv情報

著者 Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan
発行日 2025-04-03 09:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation はコメントを受け付けていません

TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

要約

LLMは、テキスト生成において驚くべき流暢さと一貫性を達成したが、その広範な採用により、コンテンツの信頼性と説明責任に関する懸念が提起されている。ヘルスケア、法律、ニュースなどの重要な領域では、コンテンツがどこでどのように作成されたかを理解することが極めて重要である。この課題に対処するため、我々はText pROVEnance (TROVE)課題を導入する。TROVE課題は、長文や複数文書の入力の可能性がある中で、ターゲットテキストの各文を特定のソース文まで遡るように設計されている。TROVEはソースを特定するだけでなく、きめ細かな関係(引用、圧縮、推論、その他)を注釈し、各ターゲットセンテンスがどのように形成されるかを深く理解する。TROVEのベンチマークとして、英語と中国語の11の多様なシナリオ(QAや要約など)をカバーする3つの公開データセットを活用し、様々な長さ(0~5k、5~10k、10k以上)の原文にまたがるデータセットを構築する。高品質なデータを確保するため、3段階のアノテーションプロセス(文検索、GPTプロボナンス、人間のプロボナンス)を採用している。また、クローズドソースモデルがリードすることが多いが、オープンソースモデルは特に検索機能拡張により大きな可能性を示している。

要約(オリジナル)

LLMs have achieved remarkable fluency and coherence in text generation, yet their widespread adoption has raised concerns about content reliability and accountability. In high-stakes domains such as healthcare, law, and news, it is crucial to understand where and how the content is created. To address this, we introduce the Text pROVEnance (TROVE) challenge, designed to trace each sentence of a target text back to specific source sentences within potentially lengthy or multi-document inputs. Beyond identifying sources, TROVE annotates the fine-grained relationships (quotation, compression, inference, and others), providing a deep understanding of how each target sentence is formed. To benchmark TROVE, we construct our dataset by leveraging three public datasets covering 11 diverse scenarios (e.g., QA and summarization) in English and Chinese, spanning source texts of varying lengths (0-5k, 5-10k, 10k+), emphasizing the multi-document and long-document settings essential for provenance. To ensure high-quality data, we employ a three-stage annotation process: sentence retrieval, GPT provenance, and human provenance. We evaluate 11 LLMs under direct prompting and retrieval-augmented paradigms, revealing that retrieval is essential for robust performance, larger models perform better in complex relationship classification, and closed-source models often lead, yet open-source models show significant promise, particularly with retrieval augmentation.

arxiv情報

著者 Junnan Zhu,Min Xiao,Yining Wang,Feifei Zhai,Yu Zhou,Chengqing Zong
発行日 2025-04-03 09:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification はコメントを受け付けていません

Cognitive Memory in Large Language Models

要約

本論文では、ラージ・ランゲージ・モデル(LLM)における記憶メカニズムについて考察し、文脈に富んだ応答、幻覚の減少、効率の向上におけるその重要性を強調する。記憶を感覚記憶、短期記憶、長期記憶に分類し、感覚記憶は入力プロンプトに対応し、短期記憶は即時コンテキストを処理し、長期記憶は外部データベースや構造体を介して実装される。テキストベースのメモリセクションでは、取得(選択と要約)、管理(更新、アクセス、保存、競合の解決)、利用(全文検索、SQLクエリー、セマンティック検索)を扱っている。KVキャッシュに基づく記憶のセクションでは、選択方法(規則性に基づく要約、スコアに基づくアプローチ、特殊トークン埋め込み)と圧縮技術(低ランク圧縮、KVマージ、マルチモーダル圧縮)、およびオフロードや共有アテンションメカニズムなどの管理戦略について説明する。パラメータベースの記憶手法(LoRA、TTT、MoE)は、記憶をモデルパラメータに変換して効率を高め、隠れ状態ベースの記憶手法(チャンクメカニズム、リカレント変換器、Mambaモデル)は、RNNの隠れ状態を現在の手法と組み合わせることで、長文処理を改善する。全体として、本論文はLLMメモリメカニズムを包括的に分析し、その意義と今後の研究の方向性を強調している。

要約(オリジナル)

This paper examines memory mechanisms in Large Language Models (LLMs), emphasizing their importance for context-rich responses, reduced hallucinations, and improved efficiency. It categorizes memory into sensory, short-term, and long-term, with sensory memory corresponding to input prompts, short-term memory processing immediate context, and long-term memory implemented via external databases or structures. The text-based memory section covers acquisition (selection and summarization), management (updating, accessing, storing, and resolving conflicts), and utilization (full-text search, SQL queries, semantic search). The KV cache-based memory section discusses selection methods (regularity-based summarization, score-based approaches, special token embeddings) and compression techniques (low-rank compression, KV merging, multimodal compression), along with management strategies like offloading and shared attention mechanisms. Parameter-based memory methods (LoRA, TTT, MoE) transform memories into model parameters to enhance efficiency, while hidden-state-based memory approaches (chunk mechanisms, recurrent transformers, Mamba model) improve long-text processing by combining RNN hidden states with current methods. Overall, the paper offers a comprehensive analysis of LLM memory mechanisms, highlighting their significance and future research directions.

arxiv情報

著者 Lianlei Shan,Shixian Luo,Zezhou Zhu,Yu Yuan,Yong Wu
発行日 2025-04-03 09:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Cognitive Memory in Large Language Models はコメントを受け付けていません

Inference-Time Scaling for Generalist Reward Modeling

要約

強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングに広く採用されている。近年、RLによるLLMの推論能力の動機付けは、$textit{適切な学習方法}$によって効果的な推論時間のスケーラビリティが可能になることを示している。RLの重要な課題は、検証可能な質問や人工的なルールを超えて、様々なドメインにおけるLLMのための正確な報酬信号を得ることである。本研究では、一般的なクエリに対して、より多くの推論計算量で報酬モデリング(RM)を改善する方法、すなわち、$textbf{generalist RMの推論時間スケーラビリティ}$を調査し、さらに、適切な学習手法で性能-計算量スケーリングの有効性を改善する方法を調査する。RMアプローチには、異なる入力タイプに対する柔軟性と推論時間スケーリングの可能性を可能にする点的生成報酬モデリング(GRM)を採用する。学習方法として、オンラインRLを通してGRMのスケーラブルな報酬生成動作を促進するために、自己原理批判チューニング(Self-Principled Critique Tuning: SPCT)を提案し、適応的に原理を生成し、正確に批判を生成することで、$textbf{DeepSeek-GRM}$モデルを実現する。さらに、効果的な推論時間のスケーリングのために、並列サンプリングを用いて計算量を拡大し、より良いスケーリング性能のために投票プロセスを導くメタRMを導入する。経験的に、我々は、SPCTがGRMの品質とスケーラビリティを大幅に改善し、様々なRMベンチマークにおいて、深刻なバイアスなしに既存の手法やモデルを凌駕し、訓練時間スケーリングと比較してより良い性能を達成できることを示す。DeepSeek-GRMは、いくつかのタスクにおいてまだ課題を抱えているが、これは、ジェネラリスト報酬システムにおける将来の取り組みによって対処できると考えている。モデルは公開され、オープンソース化される予定である。

要約(オリジナル)

Reinforcement learning (RL) has been widely adopted in post-training for large language models (LLMs) at scale. Recently, the incentivization of reasoning capabilities in LLMs from RL indicates that $\textit{proper learning methods could enable effective inference-time scalability}$. A key challenge of RL is to obtain accurate reward signals for LLMs in various domains beyond verifiable questions or artificial rules. In this work, we investigate how to improve reward modeling (RM) with more inference compute for general queries, i.e. the $\textbf{inference-time scalability of generalist RM}$, and further, how to improve the effectiveness of performance-compute scaling with proper learning methods. For the RM approach, we adopt pointwise generative reward modeling (GRM) to enable flexibility for different input types and potential for inference-time scaling. For the learning method, we propose Self-Principled Critique Tuning (SPCT) to foster scalable reward generation behaviors in GRMs through online RL, to generate principles adaptively and critiques accurately, resulting in $\textbf{DeepSeek-GRM}$ models. Furthermore, for effective inference-time scaling, we use parallel sampling to expand compute usage, and introduce a meta RM to guide voting process for better scaling performance. Empirically, we show that SPCT significantly improves the quality and scalability of GRMs, outperforming existing methods and models in various RM benchmarks without severe biases, and could achieve better performance compared to training-time scaling. DeepSeek-GRM still meets challenges in some tasks, which we believe can be addressed by future efforts in generalist reward systems. The models will be released and open-sourced.

arxiv情報

著者 Zijun Liu,Peiyi Wang,Runxin Xu,Shirong Ma,Chong Ruan,Peng Li,Yang Liu,Yu Wu
発行日 2025-04-03 11:19:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Inference-Time Scaling for Generalist Reward Modeling はコメントを受け付けていません

ZClip: Adaptive Spike Mitigation for LLM Pre-Training

要約

大規模言語モデル(LLM)の学習には、勾配の不安定性や損失スパイクなど、多くの課題があります。これらの現象は破滅的な発散につながる可能性があり、コストのかかるチェックポイントの復元やデータバッチスキップが必要になります。定数法やノルム法などの従来の勾配クリッピング手法は、固定的な閾値やヒューリスティックに依存しているため、これらの問題に効果的に対処できず、非効率な学習につながり、頻繁な手動介入を必要とする。本研究では、時間経過に伴う勾配ノルムの統計的特性に基づいてクリッピング閾値を動的に調整する適応型勾配クリッピングアルゴリズムであるZClipを提案する。これまでの反応的な戦略とは異なり、ZClipは、勾配ノルムのスケールや時間的変化について事前に仮定することなく、トレーニングダイナミクスに積極的に適応する。その中核は、Zスコアに基づく異常検知を活用して、大きな勾配スパイクを識別し、緩和することで、悪性の損失スパイクを防ぐと同時に、それ以外の収束を妨げません。コードはhttps://github.com/bluorion-com/ZClip。

要約(オリジナル)

Training large language models (LLMs) presents numerous challenges, including gradient instability and loss spikes. These phenomena can lead to catastrophic divergence, requiring costly checkpoint restoration and data batch skipping. Traditional gradient clipping techniques, such as constant or norm-based methods, fail to address these issues effectively due to their reliance on fixed thresholds or heuristics, leading to inefficient learning and requiring frequent manual intervention. In this work, we propose ZClip, an adaptive gradient clipping algorithm that dynamically adjusts the clipping threshold based on statistical properties of gradient norms over time. Unlike prior reactive strategies, ZClip proactively adapts to training dynamics without making any prior assumptions on the scale and the temporal evolution of gradient norms. At its core, it leverages z-score-based anomaly detection to identify and mitigate large gradient spikes, preventing malignant loss spikes while not interfering with convergence otherwise. Our code is available at: https://github.com/bluorion-com/ZClip.

arxiv情報

著者 Abhay Kumar,Louis Owen,Nilabhra Roy Chowdhury,Fabian Güra
発行日 2025-04-03 11:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | ZClip: Adaptive Spike Mitigation for LLM Pre-Training はコメントを受け付けていません

UNDO: Understanding Distillation as Optimization

要約

知識蒸留は、大規模な言語モデル(LLM)の知識をより小さく、より効率的な生徒モデルに圧縮するための効果的な戦略として浮上してきた。しかし、標準的な一発蒸留法は、教師が生成した根拠と生徒の特定の学習要件とのミスマッチにより、しばしば最適とは言えない結果をもたらす。本論文では、UNDO: UNderstanding Distillation as Optimizationのフレームワークを紹介する。このフレームワークは、生徒の誤りを反復的に特定し、それに応じて教師が説明を改善するよう促すことで、このギャップを埋めるように設計されている。各反復は、生徒の学習上の欠陥を直接ターゲットとし、教師がこれらの弱点に具体的に対処するような、調整され強化された理由付けを提供する動機付けとなる。様々な難易度の高い数学的および常識的な推論課題に対する実証的評価により、我々の反復蒸留法であるUNDOは、標準的な一段階蒸留法を大幅に凌駕し、最大20%の成績向上を達成することが実証された。さらに、我々の反復プロセスによって精緻化された教師生成データは、異なる生徒モデルに適用した場合でも効果的であることを示し、我々のアプローチの適用範囲の広さを強調している。我々の研究は、知識抽出を教師と生徒の反復的な相互作用として根本的に捉え直し、より良い知識抽出のために教師による動的な改良を効果的に活用している。

要約(オリジナル)

Knowledge distillation has emerged as an effective strategy for compressing large language models’ (LLMs) knowledge into smaller, more efficient student models. However, standard one-shot distillation methods often produce suboptimal results due to a mismatch between teacher-generated rationales and the student’s specific learning requirements. In this paper, we introduce the UNDO: UNderstanding Distillation as Optimization framework, designed to bridge this gap by iteratively identifying the student’s errors and prompting the teacher to refine its explanations accordingly. Each iteration directly targets the student’s learning deficiencies, motivating the teacher to provide tailored and enhanced rationales that specifically address these weaknesses. Empirical evaluations on various challenging mathematical and commonsense reasoning tasks demonstrate that our iterative distillation method, UNDO, significantly outperforms standard one-step distillation methods, achieving performance gains of up to 20%. Additionally, we show that teacher-generated data refined through our iterative process remains effective even when applied to different student models, underscoring the broad applicability of our approach. Our work fundamentally reframes knowledge distillation as an iterative teacher-student interaction, effectively leveraging dynamic refinement by the teacher for better knowledge distillation.

arxiv情報

著者 Kushal Jain,Piyushi Goyal,Kumar Shridhar
発行日 2025-04-03 12:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | UNDO: Understanding Distillation as Optimization はコメントを受け付けていません

Token-Driven GammaTune: Adaptive Calibration for Enhanced Speculative Decoding

要約

投機的復号は、より小さなドラフトモデルを使ってトークンを提案し、それをより大きなターゲットモデルで検証することで、大規模言語モデル(LLM)推論を高速化する。しかし、最適な投機長を選択することは、無駄な計算を最小限に抑えながら高速化を最大化するために重要です。我々は、ヒューリスティックベースのスイッチングメカニズムを使って、トークンの受理率に基づいて投機の長さを動的に調整する、トレーニング不要の適応型アルゴリズムである˶‾textit{GammaTune}と˶‾textit{GammaTune+}を紹介します。複数のタスクとモデル・ペアをSpecBenchで評価した結果、本手法は他のヒューリスティッ ク・ベースのアプローチと固定長の投機的デコードを凌駕し、性能のばらつきを抑えながら、 ⊖textit{GammaTune}で平均15% ($pm$5%)、⊖textit{GammaTune+}で平均16% ($pm$3%)の高速化を達成した。これによって、実世界での展開において ˶´﹀`˵ はロバストで効率的なソリューションになります。

要約(オリジナル)

Speculative decoding accelerates large language model (LLM) inference by using a smaller draft model to propose tokens, which are then verified by a larger target model. However, selecting an optimal speculation length is critical for maximizing speedup while minimizing wasted computation. We introduce \textit{GammaTune} and \textit{GammaTune+}, training-free adaptive algorithms that dynamically adjust speculation length based on token acceptance rates using a heuristic-based switching mechanism. Evaluated on SpecBench across multiple tasks and model pairs, our method outperforms other heuristic-based approaches and fixed-length speculative decoding, achieving an average speedup of 15\% ($\pm$5\%) with \textit{GammaTune} and 16\% ($\pm$3\%) with \textit{GammaTune+}, while reducing performance variance. This makes \textit{GammaTune} a robust and efficient solution for real-world deployment.

arxiv情報

著者 Aayush Gautam,Susav Shrestha,Narasimha Reddy
発行日 2025-04-03 12:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Token-Driven GammaTune: Adaptive Calibration for Enhanced Speculative Decoding はコメントを受け付けていません