AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings

要約

現在の言語モデルは、前脱出時間で決定された静的な語彙に依存しており、これにより、元の語彙で過小評価されているドメインのパフォーマンスの低下と計算コストの増加につながる可能性があります。
新しいトークンを追加して、新しい埋め込みの適切な初期化と組み合わせると、この問題を解決することができます。
ただし、既存の埋め込み初期化方法には、追加のモジュールの高価なさらなるトレーニングまたは事前削除が必要です。
この論文では、Awedistを提案し、元のトークン化を使用して得られた表現を蒸留することにより、新しいトークンの高品質の入力埋め込みをすばやく学ぶことができることを示します。
幅広いオープンウェイトモデルを使用した実験結果は、Awedistが強力なベースラインでも優れていることを示しています。

要約(オリジナル)

Current language models rely on static vocabularies determined at pretraining time, which can lead to decreased performance and increased computational cost for domains underrepresented in the original vocabulary. New tokens can be added to solve this problem, when coupled with a good initialization for their new embeddings. However, existing embedding initialization methods either require expensive further training or pretraining of additional modules. In this paper, we propose AweDist and show that by distilling representations obtained using the original tokenization, we can quickly learn high-quality input embeddings for new tokens. Experimental results with a wide range of open-weight models show that AweDist is able to outperform even strong baselines.

arxiv情報

著者 Konstantin Dobler,Desmond Elliott,Gerard de Melo
発行日 2025-05-26 15:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings はコメントを受け付けていません

SeMe: Training-Free Language Model Merging via Semantic Alignment

要約

多様なタスク全体の言語モデル(LMS)の顕著な能力にもかかわらず、単一のモデルは一貫して他のモデルを上回ることはなく、高価な再訓練なしで強度を組み合わせる効率的な方法を必要とします。
パラメーターの平均化やタスクガイド付き融合などの既存のモデルのマージ手法は、データ依存の計算に依存しているか、内部知識を維持し、堅牢性とスケーラビリティを制限することがよくあります。
潜在的なセマンティックアライメントを活用してLMSを微調整されたレイヤーワイズレベルで融合する、小説、データフリー、およびトレーニングフリーのアプローチであるSeme(セマンティックベースのマージ)を紹介します。
以前の作業とは異なり、Semeはモデルの動作を保持するだけでなく、内部知識を明示的に安定させ、LM融合の重要なギャップに対処します。
多様なアーキテクチャとタスク全体の広範な実験を通じて、SEMEはパフォーマンスと効率の両方で既存の方法を上回り、外部データへの依存を排除​​することを実証します。
私たちの仕事は、知識を意識したモデルの合併のための新しいパラダイムを確立し、LMSの意味構造に関する洞察を提供し、よりスケーラブルで解釈可能なモデル構成への道を開きます。

要約(オリジナル)

Despite the remarkable capabilities of Language Models (LMs) across diverse tasks, no single model consistently outperforms others, necessitating efficient methods to combine their strengths without expensive retraining. Existing model merging techniques, such as parameter averaging and task-guided fusion, often rely on data-dependent computations or fail to preserve internal knowledge, limiting their robustness and scalability. We introduce SeMe (Semantic-based Merging), a novel, data-free, and training-free approach that leverages latent semantic alignment to merge LMs at a fine-grained, layer-wise level. Unlike prior work, SeMe not only preserves model behaviors but also explicitly stabilizes internal knowledge, addressing a critical gap in LM fusion. Through extensive experiments across diverse architectures and tasks, we demonstrate that SeMe outperforms existing methods in both performance and efficiency while eliminating reliance on external data. Our work establishes a new paradigm for knowledge-aware model merging and provides insights into the semantic structure of LMs, paving the way for more scalable and interpretable model composition.

arxiv情報

著者 Jian Gu,Aldeida Aleti,Chunyang Chen,Hongyu Zhang
発行日 2025-05-26 15:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SeMe: Training-Free Language Model Merging via Semantic Alignment はコメントを受け付けていません

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

要約

強化学習(RL)は、推論モデルをトレーニングするための効果的な方法として浮上しています。
ただし、既存のRLアプローチは通常、外部の知識を導入することなく、モデルの出力分布を報酬最大化パスに向けてバイアスします。
これにより、探索能力が制限され、ベースモデルと比較してより狭い推論能力境界が得られます。
この制限に対処するために、外部の高レベルガイダンス(「思考パターン」)を組み込むことでRLを補強する新しいフレームワークであるTAPO(思考能力のある政策最適化)を提案します。
トレーニング中に構造化された思考を適応的に統合することにより、TAPOはモデル内部探査と外部ガイダンスの搾取を効果的にバランスさせます。
広範な実験により、私たちのアプローチは、AIMEでGRPOを99%、AMCで41%、Minerva Mathで17%を大幅に上回ることが示されています。
特に、これらの高レベルの思考パターンは、わずか500の以前のサンプルから抽象化されており、さまざまなタスクやモデルに効果的に一般化されています。
これは、複数のタスクとドメインにわたるより広範なアプリケーションのTapoの可能性を強調しています。
さらなる分析により、外部ガイダンスを導入することで、推論行動の優れた説明可能性と出力読み取り可能性が向上した強力な推論モデルが生成されることが明らかになりました。

要約(オリジナル)

Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model’s output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance (‘thought patterns’). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO’s potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.

arxiv情報

著者 Jinyang Wu,Chonghua Liao,Mingkuan Feng,Shuai Zhang,Zhengqi Wen,Pengpeng Shao,Huazhe Xu,Jianhua Tao
発行日 2025-05-26 15:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities はコメントを受け付けていません

UORA: Uniform Orthogonal Reinitialization Adaptation in Parameter-Efficient Fine-Tuning of Large Models

要約

このホワイトペーパーでは、大規模な言語モデル(LLM)の新しいパラメーター効率の高い微調整(PEFT)アプローチである均一な直交再発現適応(UORA)を紹介します。
UORAは、低ランク近似方法を活用してトレーニング可能なパラメーターの数を減らすことにより、最先端のパフォーマンスとパラメーターの効率を達成します。
LoraやVeraなどの既存の方法とは異なり、UORAは、ベクトルの大きさヒューリスティックに導かれた、凍結投影マトリックスの行と柱を選択的に再現する補間ベースの再拡張メカニズムを採用しています。
これにより、LORAと比較してトレーニング可能なパラメーターが大幅に少なくなり、計算および貯蔵効率のVERAを上回ります。
さまざまなベンチマークにわたる包括的な実験は、無視できる計算オーバーヘッドで競争力のある微調整パフォーマンスを達成する上でのUORAの優位性を示しています。
接着剤とE2Eベンチマークでのパフォーマンスと、命令調整の大規模な言語モデルと画像分類モデルの有効性を示します。
私たちの貢献は、LLMのスケーラブルでリソース効率の高い微調整のための新しいパラダイムを確立します。

要約(オリジナル)

This paper introduces Uniform Orthogonal Reinitialization Adaptation (UORA), a novel parameter-efficient fine-tuning (PEFT) approach for Large Language Models (LLMs). UORA achieves state-of-the-art performance and parameter efficiency by leveraging a low-rank approximation method to reduce the number of trainable parameters. Unlike existing methods such as LoRA and VeRA, UORA employs an interpolation-based reparametrization mechanism that selectively reinitializes rows and columns in frozen projection matrices, guided by the vector magnitude heuristic. This results in substantially fewer trainable parameters compared to LoRA and outperforms VeRA in computation and storage efficiency. Comprehensive experiments across various benchmarks demonstrate UORA’s superiority in achieving competitive fine-tuning performance with negligible computational overhead. We demonstrate its performance on GLUE and E2E benchmarks and its effectiveness in instruction-tuning large language models and image classification models. Our contributions establish a new paradigm for scalable and resource-efficient fine-tuning of LLMs.

arxiv情報

著者 Xueyan Zhang,Jinman Zhao,Zhifei Yang,Yibo Zhong,Shuhao Guan,Linbo Cao,Yining Wang
発行日 2025-05-26 15:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UORA: Uniform Orthogonal Reinitialization Adaptation in Parameter-Efficient Fine-Tuning of Large Models はコメントを受け付けていません

Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs

要約

大規模な言語モデル(LLMS)は、多数のタスクにわたって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実際の展開に大きな計算上の課題をもたらします。
構造化された剪定はモデル圧縮の有望な手段を提供しますが、既存の方法はしばしば、攻撃的で同時幅と深さ削減の有害な影響と闘い、実質的なパフォーマンスの低下につながります。
このペーパーでは、このような積極的な関節剪定を実行可能にする際の重要な、しばしば見落とされがちな側面は、モデルの実施後のトレーニング精度を改善するための残りの重みの戦略的な再目的化と調整であると主張しています。
Pangu Lightを紹介します。PanguLightは、この「欠落しているピース」に対処するために設計された新規重量の再初期化技術と組み合わされた構造化された剪定を中心とするLLM加速度のフレームワークを紹介します。
私たちのフレームワークは、モデル幅、深さ、注意ヘッド、RMSNormなどの複数の軸を系統的に標的にし、その効果は、ネットワークをより良いトレーニングの開始点を提供することでパフォーマンスを軽減するレイヤーーム剪定を安定化するレイヤーーム剪定(SLNP)などの新しい再現方法に根ざしています。
Pangu Lightは、効率をさらに高めることで、RMSNORM後の計算を吸収するなどの特殊な最適化を組み込み、NPU特性を上げるための戦略を調整します。
Pangu Lightモデルは、NemotronやQWEN3シリーズのような確立されたLLMのような顕著なベースライン剪定方法を上回る優れた精度効率のトレードオフを一貫して示しています。
たとえば、Ascend NPUでは、Pangue Light-32Bの81.6の平均スコアと2585トークン/sのスループットがQWEN3-32Bの80.9平均スコアと2225トークン/sを超えています。

要約(オリジナル)

Large Language Models (LLMs) deliver state-of-the-art capabilities across numerous tasks, but their immense size and inference costs pose significant computational challenges for practical deployment. While structured pruning offers a promising avenue for model compression, existing methods often struggle with the detrimental effects of aggressive, simultaneous width and depth reductions, leading to substantial performance degradation. This paper argues that a critical, often overlooked, aspect in making such aggressive joint pruning viable is the strategic re-initialization and adjustment of remaining weights to improve the model post-pruning training accuracies. We introduce Pangu Light, a framework for LLM acceleration centered around structured pruning coupled with novel weight re-initialization techniques designed to address this “missing piece”. Our framework systematically targets multiple axes, including model width, depth, attention heads, and RMSNorm, with its effectiveness rooted in novel re-initialization methods like Cross-Layer Attention Pruning (CLAP) and Stabilized LayerNorm Pruning (SLNP) that mitigate performance drops by providing the network a better training starting point. Further enhancing efficiency, Pangu Light incorporates specialized optimizations such as absorbing Post-RMSNorm computations and tailors its strategies to Ascend NPU characteristics. The Pangu Light models consistently exhibit a superior accuracy-efficiency trade-off, outperforming prominent baseline pruning methods like Nemotron and established LLMs like Qwen3 series. For instance, on Ascend NPUs, Pangu Light-32B’s 81.6 average score and 2585 tokens/s throughput exceed Qwen3-32B’s 80.9 average score and 2225 tokens/s.

arxiv情報

著者 Hanting Chen,Jiarui Qin,Jialong Guo,Tao Yuan,Yichun Yin,Huiling Zhen,Yasheng Wang,Jinpeng Li,Xiaojun Meng,Meng Zhang,Rongju Ruan,Zheyuan Bai,Yehui Tang,Can Chen,Xinghao Chen,Fisher Yu,Ruiming Tang,Yunhe Wang
発行日 2025-05-26 15:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs はコメントを受け付けていません

Exploring Generative Error Correction for Dysarthric Speech Recognition

要約

エンドツーエンドの自動音声認識(ASR)エンジンの驚くべき進歩にもかかわらず、ダイサルトリックスピーチを正確に転写することは依然として大きな課題です。
この作業では、最先端の音声認識モデルとLLMベースの生成エラー補正(GER)を組み合わせたSpeech interspeech 2025で、Speech Accessibility Project Challengeの2段階フレームワークを提案しました。
モデルスケールとトレーニング戦略のさまざまな構成を評価し、特定の仮説選択を組み込み、転写の精度を向上させます。
スピーチアクセシビリティプロジェクトデータセットの実験は、単一単語認識の課題を強調しながら、構造化された自発的な音声に関するアプローチの強さを示しています。
包括的な分析を通じて、ダイサルトリック音声認識における音響および言語モデリングの補完的な役割に関する洞察を提供します

要約(オリジナル)

Despite the remarkable progress in end-to-end Automatic Speech Recognition (ASR) engines, accurately transcribing dysarthric speech remains a major challenge. In this work, we proposed a two-stage framework for the Speech Accessibility Project Challenge at INTERSPEECH 2025, which combines cutting-edge speech recognition models with LLM-based generative error correction (GER). We assess different configurations of model scales and training strategies, incorporating specific hypothesis selection to improve transcription accuracy. Experiments on the Speech Accessibility Project dataset demonstrate the strength of our approach on structured and spontaneous speech, while highlighting challenges in single-word recognition. Through comprehensive analysis, we provide insights into the complementary roles of acoustic and linguistic modeling in dysarthric speech recognition

arxiv情報

著者 Moreno La Quatra,Alkis Koudounas,Valerio Mario Salerno,Sabato Marco Siniscalchi
発行日 2025-05-26 16:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Exploring Generative Error Correction for Dysarthric Speech Recognition はコメントを受け付けていません

Visual Abstract Thinking Empowers Multimodal Reasoning

要約

通常、画像はテキストよりも豊かな詳細を伝えますが、多くの場合、マルチモーダルの推論パフォーマンスを格下げする可能性のある冗長な情報が含まれます。
長いまたは複雑なメッセージに直面すると、人間は抽象的思考を採用して、それらを単純で簡潔な抽象に変換する傾向があります。
この認知戦略に触発されて、視覚的抽象思考(VAT)を紹介します。これは、明示的な言葉の思考や精巧なガイダンスの代わりに、視覚的抽象的なマルチモーダル大手言語モデル(MLLM)を促す斬新なパラダイムであり、より集中した視覚的推論メカニズムを許可します。
チェーンオブ考え(COT)やツールの高度のアプローチなどの明示的な思考は、冗長中間ステップ、外部知識、または視覚情報を挿入することにより、推論プロセスの複雑さを高めます。
対照的に、VATは冗長な視覚情報を減らし、モデルがより重要な視覚要素に推論を集中させることを奨励します。
実験結果は、VATがさまざまなモデルに一貫して力を与え、さまざまなタイプの視覚的要約を採用することによりGPT-4Oベースラインよりも17%の平均ゲインを達成することを示しており、VATが概念、構造、およびリレーショナルの推論タスクに関するMLLMの視覚的推論能力を高めることができることを示しています。
VATは、知識集約的なマルチモーダル推論タスクのCOTとも互換性があります。
これらの発見は、抽象的な思考による視覚的推論の有効性を強調し、人間の認知の観点からより多様な推論パラダイムのさらなる調査を促進します。

要約(オリジナル)

Images usually convey richer detail than text, but often include redundant information which potentially downgrades multimodal reasoning performance. When faced with lengthy or complex messages, humans tend to employ abstract thinking to convert them into simple and concise abstracts. Inspired by this cognitive strategy, we introduce Visual Abstract Thinking (VAT), a novel thinking paradigm that prompts Multimodal Large Language Models (MLLMs) with visual abstract instead of explicit verbal thoughts or elaborate guidance, permitting a more concentrated visual reasoning mechanism. Explicit thinking, such as Chain-of-thought (CoT) or tool-augmented approaches, increases the complexity of reasoning process via inserting verbose intermediate steps, external knowledge or visual information. In contrast, VAT reduces redundant visual information and encourages models to focus their reasoning on more essential visual elements. Experimental results show that VAT consistently empowers different models, and achieves an average gain of 17% over GPT-4o baseline by employing diverse types of visual abstracts, demonstrating that VAT can enhance visual reasoning abilities for MLLMs regarding conceptual, structural and relational reasoning tasks. VAT is also compatible with CoT in knowledge-intensive multimodal reasoning tasks. These findings highlight the effectiveness of visual reasoning via abstract thinking and encourage further exploration of more diverse reasoning paradigms from the perspective of human cognition.

arxiv情報

著者 Dairu Liu,Ziyue Wang,Minyuan Ruan,Fuwen Luo,Chi Chen,Peng Li,Yang Liu
発行日 2025-05-26 16:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Visual Abstract Thinking Empowers Multimodal Reasoning はコメントを受け付けていません

‘KAN you hear me?’ Exploring Kolmogorov-Arnold Networks for Spoken Language Understanding

要約

Kolmogorov-Arnold Networks(KANS)は最近、従来の神経アーキテクチャの有望な代替手段として浮上していますが、音声処理への適用は調査中に残っています。
この作業は、話された言語理解(SLU)タスクのためのKansの最初の調査を提示します。
2つのデータセットで2D-CNNモデルを実験し、密なブロック内の5つの異なる構成にKan層を統合します。
Kan層を2つの線形層の間に配置する最高のパフォーマンスのセットアップは、トランスベースのモデルに直接適用され、5つのSLUデータセットで複雑さを増して評価されます。
私たちの結果は、Kan層が線形層を効果的に置き換えることができ、ほとんどの場合、同等または優れた性能を達成できることを示しています。
最後に、トランスの上のKanと線形層が、生の波形の入力領域にどのように異なる方法があるかについての洞察を提供します。

要約(オリジナル)

Kolmogorov-Arnold Networks (KANs) have recently emerged as a promising alternative to traditional neural architectures, yet their application to speech processing remains under explored. This work presents the first investigation of KANs for Spoken Language Understanding (SLU) tasks. We experiment with 2D-CNN models on two datasets, integrating KAN layers in five different configurations within the dense block. The best-performing setup, which places a KAN layer between two linear layers, is directly applied to transformer-based models and evaluated on five SLU datasets with increasing complexity. Our results show that KAN layers can effectively replace the linear layers, achieving comparable or superior performance in most cases. Finally, we provide insights into how KAN and linear layers on top of transformers differently attend to input regions of the raw waveforms.

arxiv情報

著者 Alkis Koudounas,Moreno La Quatra,Eliana Pastor,Sabato Marco Siniscalchi,Elena Baralis
発行日 2025-05-26 16:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS | ‘KAN you hear me?’ Exploring Kolmogorov-Arnold Networks for Spoken Language Understanding はコメントを受け付けていません

Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning

要約

入力の長さが増加するにつれてパフォーマンスの劣化により、高度なLLM-A-A-Judgeメソッドであっても、長期のモデル生成テキストの品質を評価することは困難です。
この問題に対処するために、包括的な評価タスクを一連のローカライズされたスコアリングタスクに分解し、最終的なグローバル評価が続く分割統治アプローチを提案します。
この戦略により、より詳細で管理しやすい評価が可能になり、テキストの各セグメントが一貫性と品質の両方で単独で評価され、ピース全体の全体的な構造と一貫性を占めます。
さらに、人間の注釈を活用してローカルおよびグローバルな評価の両方のパフォーマンスを向上させるハイブリッド内コンテキスト学習アプローチを紹介します。
この方法により、人間が生成したフィードバックを評価プロセスに直接組み込むことにより、モデルが人間の判断とより適合することができます。
最後に、人間の注釈のためにデータサンプルを効率的に選択する不確実性ベースのアクティブ学習アルゴリズムを開発し、それにより実際のシナリオで注釈コストを削減します。
実験結果は、提案された評価フレームワークがいくつかの代表的なベースラインよりも優れていることを示しており、アプローチの有効性を強調しています。

要約(オリジナル)

Assessing the quality of long-form, model-generated text is challenging, even with advanced LLM-as-a-Judge methods, due to performance degradation as input length increases. To address this issue, we propose a divide-and-conquer approach, which breaks down the comprehensive evaluation task into a series of localized scoring tasks, followed by a final global assessment. This strategy allows for more granular and manageable evaluations, ensuring that each segment of the text is assessed in isolation for both coherence and quality, while also accounting for the overall structure and consistency of the entire piece. Moreover, we introduce a hybrid in-context learning approach that leverages human annotations to enhance the performance of both local and global evaluations. By incorporating human-generated feedback directly into the evaluation process, this method allows the model to better align with human judgment. Finally, we develop an uncertainty-based active learning algorithm that efficiently selects data samples for human annotation, thereby reducing annotation costs in practical scenarios. Experimental results show that the proposed evaluation framework outperforms several representative baselines, highlighting the effectiveness of our approach.

arxiv情報

著者 Xiaorong Wang,Ting Yang,Zhu Zhang,Shuo Wang,Zihan Zhou,Liner Yang,Zhiyuan Liu,Maosong Sun
発行日 2025-05-26 16:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning はコメントを受け付けていません

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

要約

分類器のないガイダンス(CFG)は、条件付きおよび無条件の予測を補間することにより、生成モデルの制御性を大幅に向上させます。
ただし、標準のCFGは、多くの場合、モデルの不確実性が動的に変化する反復生成プロセスの最適ではない静的な無条件入力を採用しています。
モデルの瞬間的な予測信頼を活用することにより、無条件の入力を調整する新しい方法である、Adaptive Classifier-Free Guidance(A-CFG)を紹介します。
反復的(マスクされた)拡散言語モデルの各ステップで、A-CFGは、モデルが低い信頼性を示す現在生成されているシーケンスのトークンを識別します。
これらのトークンは、動的でローカライズされた無条件の入力を作成するために一時的に再マスクされています。
これは、CFGの是正された影響を曖昧さの分野に正確に焦点を当て、より効果的なガイダンスにつながります。
A-CFGを最先端のマスク拡散言語モデルに統合し、その有効性を示します。
多様な言語生成ベンチマークでの実験は、A-CFGが標準のCFGよりも大幅な改善をもたらし、たとえばGPQAで3.9ポイントのゲインを達成することを示しています。
私たちの研究は、ガイダンスメカニズムを動的に適応させ、反復生成の不確実性をモデル化する利点を強調しています。

要約(オリジナル)

Classifier-Free Guidance (CFG) significantly enhances controllability in generative models by interpolating conditional and unconditional predictions. However, standard CFG often employs a static unconditional input, which can be suboptimal for iterative generation processes where model uncertainty varies dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel method that tailors the unconditional input by leveraging the model’s instantaneous predictive confidence. At each step of an iterative (masked) diffusion language model, A-CFG identifies tokens in the currently generated sequence for which the model exhibits low confidence. These tokens are temporarily re-masked to create a dynamic, localized unconditional input. This focuses CFG’s corrective influence precisely on areas of ambiguity, leading to more effective guidance. We integrate A-CFG into a state-of-the-art masked diffusion language model and demonstrate its efficacy. Experiments on diverse language generation benchmarks show that A-CFG yields substantial improvements over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work highlights the benefit of dynamically adapting guidance mechanisms to model uncertainty in iterative generation.

arxiv情報

著者 Pengxiang Li,Shilin Yan,Joey Tsai,Renrui Zhang,Ruichuan An,Ziyu Guo,Xiaowei Gao
発行日 2025-05-26 16:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking はコメントを受け付けていません