Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach

要約

透かしは、人間が作成したテキストとAIに生成されたテキストを区別するための重要な方法として浮上しています。
このホワイトペーパーでは、透かしスキームと検出プロセスの両方を共同で最適化する大規模な言語モデル(LLMS)を透かして透かして紹介するための新しい理論的枠組みを紹介します。
私たちのアプローチは、最悪の型タイプIエラーとテキストの歪みを制御しながら、検出パフォーマンスを最大化することに焦点を当てています。
\ emphing {普遍的に最小タイプIIエラー}を特徴づけ、透かしの検出可能性とテキストの歪みの間の基本的なトレードオフを示しています。
重要なことに、最適な透かしスキームがLLM生成分布に適応していることを特定します。
理論的な洞察に基づいて、Gumbel-Maxのトリックと一緒に代理モデルを利用して、効率的でモデルに依存しない、配布適応透過アルゴリズムを提案します。
LLAMA2-13BおよびMISTRAL-8 $ \ Times 70億ドルのモデルで行われた実験は、アプローチの有効性を確認します。
さらに、私たちのフレームワークに堅牢性を組み込むことを検討し、敵対的な攻撃により効果的に耐える将来の透かしシステムへの道を開いています。

要約(オリジナル)

Watermarking has emerged as a crucial method to distinguish AI-generated text from human-created text. In this paper, we present a novel theoretical framework for watermarking Large Language Models (LLMs) that jointly optimizes both the watermarking scheme and the detection process. Our approach focuses on maximizing detection performance while maintaining control over the worst-case Type-I error and text distortion. We characterize \emph{the universally minimum Type-II error}, showing a fundamental trade-off between watermark detectability and text distortion. Importantly, we identify that the optimal watermarking schemes are adaptive to the LLM generative distribution. Building on our theoretical insights, we propose an efficient, model-agnostic, distribution-adaptive watermarking algorithm, utilizing a surrogate model alongside the Gumbel-max trick. Experiments conducted on Llama2-13B and Mistral-8$\times$7B models confirm the effectiveness of our approach. Additionally, we examine incorporating robustness into our framework, paving a way to future watermarking systems that withstand adversarial attacks more effectively.

arxiv情報

著者 Haiyun He,Yepeng Liu,Ziqiao Wang,Yongyi Mao,Yuheng Bu
発行日 2025-02-19 18:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.IT, cs.LG, math.IT | Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach はコメントを受け付けていません

Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks

要約

データセット蒸留(DD)は、限られた量のメモリと計算で深いネットワークを効率的にトレーニングできる小さな合成データセットを生成します。
監視された学習のためのDDメソッドの成功にもかかわらず、ディープモデルの自己監視前のトレーニングのDDは依然として依然としてありません。
ラベル付けされていないデータの事前トレーニングは、限られたラベル付きデータを使用してダウンストリームタスクに効率的に一般化するために重要です。
この作業では、SSLプリトレーニングのための最初の効果的なDDメソッドを提案します。
まず、理論的および経験的に、SSL勾配の高い分散により、SSLへの監視されたDDメソッドの素朴な適用が失敗することを示します。
次に、知識蒸留(KD)の文献からの洞察に依存することにより、この問題に対処します。
具体的には、SSLで訓練されたより大きな教師モデルの表現に一致するように、小さな学生モデルを訓練します。
次に、学生モデルのトレーニング軌跡を一致させることにより、小さな合成データセットを生成します。
KD目的はSSLよりもかなり低い分散を持っているため、私たちのアプローチは、高品質のエンコーダーを事前に走行できる合成データセットを生成できます。
広範な実験を通じて、蒸留セットが、限られたラベル付きデータの存在下で、さまざまな下流タスクで、以前の作業よりも最大13%高い精度につながることを示しています。
https://github.com/bigml-cs-ucla/mkdtのコード。

要約(オリジナル)

Dataset distillation (DD) generates small synthetic datasets that can efficiently train deep networks with a limited amount of memory and compute. Despite the success of DD methods for supervised learning, DD for self-supervised pre-training of deep models has remained unaddressed. Pre-training on unlabeled data is crucial for efficiently generalizing to downstream tasks with limited labeled data. In this work, we propose the first effective DD method for SSL pre-training. First, we show, theoretically and empirically, that naive application of supervised DD methods to SSL fails, due to the high variance of the SSL gradient. Then, we address this issue by relying on insights from knowledge distillation (KD) literature. Specifically, we train a small student model to match the representations of a larger teacher model trained with SSL. Then, we generate a small synthetic dataset by matching the training trajectories of the student models. As the KD objective has considerably lower variance than SSL, our approach can generate synthetic datasets that can successfully pre-train high-quality encoders. Through extensive experiments, we show that our distilled sets lead to up to 13% higher accuracy than prior work, on a variety of downstream tasks, in the presence of limited labeled data. Code at https://github.com/BigML-CS-UCLA/MKDT.

arxiv情報

著者 Siddharth Joshi,Jiayi Ni,Baharan Mirzasoleiman
発行日 2025-02-19 18:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks はコメントを受け付けていません

Robotic Table Tennis: A Case Study into a High Speed Learning System

要約

私たちは、以前の研究では、人間と何百もの卓球集会が可能であり、ボールを望ましいターゲットに正確に戻す能力を持っていることが示された、現実世界のロボット学習システムに深く掘り下げます。
このシステムは、高度に最適化された知覚サブシステム、高速低遅延ロボットコントローラー、現実世界での損傷を防ぎ、ゼロショット転送のためのポリシーを訓練できるシミュレーションパラダイム、および自動運転を可能にする自動化された現実世界環境のリセットをまとめます。
物理ロボットのトレーニングと評価。
通常、広く普及していない多くの設計上の決定を含む完全なシステムの説明を補完します。さまざまなレイテンシのソースを軽減することの重要性、トレーニングおよび展開分布の変化、知覚システムの堅牢性、感度の堅牢性の説明の重要性を明確にする研究のコレクションを含む
ポリシーハイパーパラメーター、およびアクションスペースの選択。
システムのコンポーネントと実験結果の詳細を示すビデオは、https://youtu.be/ufcnwjb42i0にあります。

要約(オリジナル)

We present a deep-dive into a real-world robotic learning system that, in previous work, was shown to be capable of hundreds of table tennis rallies with a human and has the ability to precisely return the ball to desired targets. This system puts together a highly optimized perception subsystem, a high-speed low-latency robot controller, a simulation paradigm that can prevent damage in the real world and also train policies for zero-shot transfer, and automated real world environment resets that enable autonomous training and evaluation on physical robots. We complement a complete system description, including numerous design decisions that are typically not widely disseminated, with a collection of studies that clarify the importance of mitigating various sources of latency, accounting for training and deployment distribution shifts, robustness of the perception system, sensitivity to policy hyper-parameters, and choice of action space. A video demonstrating the components of the system and details of experimental results can be found at https://youtu.be/uFcnWjB42I0.

arxiv情報

著者 David B. D’Ambrosio,Jonathan Abelian,Saminda Abeyruwan,Michael Ahn,Alex Bewley,Justin Boyd,Krzysztof Choromanski,Omar Cortes,Erwin Coumans,Tianli Ding,Wenbo Gao,Laura Graesser,Atil Iscen,Navdeep Jaitly,Deepali Jain,Juhana Kangaspunta,Satoshi Kataoka,Gus Kouretas,Yuheng Kuang,Nevena Lazic,Corey Lynch,Reza Mahjourian,Sherry Q. Moore,Thinh Nguyen,Ken Oslund,Barney J Reed,Krista Reymann,Pannag R. Sanketi,Anish Shankar,Pierre Sermanet,Vikas Sindhwani,Avi Singh,Vincent Vanhoucke,Grace Vesom,Peng Xu
発行日 2025-02-19 18:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Robotic Table Tennis: A Case Study into a High Speed Learning System はコメントを受け付けていません

The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent

要約

浅いモデルと比較して勾配降下(GD)によって訓練された深いニューラルネットワークの利点を理解することは、未解決の理論的課題です。
高次元のガウスデータを使用したマルチインデックスモデルの研究により、カーネルに対するGDトレーニングを受けたニューラルネットワークの利点に関する分析的な洞察が提供されていますが、GDトレーニングネットワークのサンプルの複雑さと一般化における深さを改善する上での役割はまだ理解されていません。
このホワイトペーパーでは、潜在的な部分空間寸法の階層を組み込んだターゲット関数のクラス(単一およびマルチインデックスガウス階層ターゲット)を紹介します。
このフレームワークにより、高次元の制限の浅いネットワークと比較して、深いネットワークの学習ダイナミクスと一般化パフォーマンスを分析的に研究することができます。
具体的には、私たちの主な定理は、GDを使用した特徴学習が効果的な次元を減らし、高次元の問題を低次元の問題に変換することを示しています。
これにより、浅いネットワークよりも劇的に少ないサンプルでターゲット関数を学習することができます。
結果は制御されたトレーニング設定で証明されていますが、より一般的なトレーニング手順についても議論し、同じメカニズムを通じて学習すると主張します。
これらの発見は、深いネットワークで階層構造を学習する際の深さの重要な役割のさらなる定量的研究への道を開きます。

要約(オリジナル)

Understanding the advantages of deep neural networks trained by gradient descent (GD) compared to shallow models remains an open theoretical challenge. While the study of multi-index models with Gaussian data in high dimensions has provided analytical insights into the benefits of GD-trained neural networks over kernels, the role of depth in improving sample complexity and generalization in GD-trained networks remains poorly understood. In this paper, we introduce a class of target functions (single and multi-index Gaussian hierarchical targets) that incorporate a hierarchy of latent subspace dimensionalities. This framework enables us to analytically study the learning dynamics and generalization performance of deep networks compared to shallow ones in the high-dimensional limit. Specifically, our main theorem shows that feature learning with GD reduces the effective dimensionality, transforming a high-dimensional problem into a sequence of lower-dimensional ones. This enables learning the target function with drastically less samples than with shallow networks. While the results are proven in a controlled training setting, we also discuss more common training procedures and argue that they learn through the same mechanisms. These findings open the way to further quantitative studies of the crucial role of depth in learning hierarchical structures with deep networks.

arxiv情報

著者 Yatin Dandi,Luca Pesce,Lenka Zdeborová,Florent Krzakala
発行日 2025-02-19 18:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent はコメントを受け付けていません

Where’s the Bug? Attention Probing for Scalable Fault Localization

要約

コード関連のタスクでは、大規模な言語モデル(LLM)がますます能力があるにもかかわらず、コードの正確性を確保することは依然として困難な問題のままです。
LLMベースのプログラム修理システムは、ユーザーのバグレポートのみを使用してバグ修正を提案できますが、その有効性は、人間とLLMの両方にとって困難な問題である障害ローカリゼーション(FL)を実行する能力によって根本的に制限されます。
既存のFLアプローチは、実行可能なテストのケースに依存しており、費用がかかり、しばしば騒々しいラインレベルの注釈のトレーニングが必要です。
このホワイトペーパーでは、直接ローカリゼーションラベルなしで最先端の障害ローカリゼーションを学習し、従来のFLベースラインを上回り、大規模なLLMSのプロンプトを作成する方法を学習する方法であるバグ注意プローブ(BAP)を紹介します。
標準的な欠陥4Jデータセットからの実際のJavaバグや、バグタイプと言語の多様なセットに及ぶ他の7つのデータセットなど、さまざまなコード設定にわたるアプローチを評価します。
8つのデータセットすべてにわたって平均して、BAPは、最強のベースラインと比較して34.6%のTOP-1精度、ゼロショットよりも93.4%がGPT-4Oを促します。
また、BAPはプロンプトをプロンプトするよりもはるかに効率的であり、計算コストのごく一部で大きなオープンウェイトモデルを上回ります。

要約(オリジナル)

Ensuring code correctness remains a challenging problem even as large language models (LLMs) become increasingly capable at code-related tasks. While LLM-based program repair systems can propose bug fixes using only a user’s bug report, their effectiveness is fundamentally limited by their ability to perform fault localization (FL), a challenging problem for both humans and LLMs. Existing FL approaches rely on executable test cases, require training on costly and often noisy line-level annotations, or demand resource-intensive LLMs. In this paper, we present Bug Attention Probe (BAP), a method which learns state-of-the-art fault localization without any direct localization labels, outperforming traditional FL baselines and prompting of large-scale LLMs. We evaluate our approach across a variety of code settings, including real-world Java bugs from the standard Defects4J dataset as well as seven other datasets which span a diverse set of bug types and languages. Averaged across all eight datasets, BAP improves by 34.6% top-1 accuracy compared to the strongest baseline and 93.4% over zero-shot prompting GPT-4o. BAP is also significantly more efficient than prompting, outperforming large open-weight models at a small fraction of the computational cost.

arxiv情報

著者 Adam Stein,Arthur Wayne,Aaditya Naik,Mayur Naik,Eric Wong
発行日 2025-02-19 18:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | Where’s the Bug? Attention Probing for Scalable Fault Localization はコメントを受け付けていません

Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis

要約

アスペクトベースのセンチメント分析(ABSA)は、多言語のコンテキストでの研究関心の高まりを獲得したシーケンスラベル付けタスクです。
ただし、最近の研究には、より堅牢な特徴アライメントとより細かいアスペクトレベルのアラインメントがありません。
この論文では、横断的ABSAのための新しいフレームワーク、マルチスケールおよび多目的最適化(MSMO)を提案します。
マルチスケールのアライメント中に、異なる文化レベルとアスペクトレベルのアラインメントを実現し、異なるコンテキスト環境でアスペクト用語の機能を調整します。
具体的には、モデルの堅牢性を高めるために、コードスイッチのバイリンガル文を言語差別装置と一貫性トレーニングモジュールに紹介します。
多目的最適化中に、2つの最適化目標を設計します。監視されたトレーニングと一貫性トレーニングを目指して、間違ったセマンティックアライメントを強化することを目指しています。
モデルのパフォーマンスをさらに向上させるために、ターゲット言語の蒸留知識をモデルに組み込みます。
結果は、MSMOが複数の言語とモデルで最先端のパフォーマンスを達成することにより、言語間ABSAを大幅に強化することを示しています。

要約(オリジナル)

Aspect-based sentiment analysis (ABSA) is a sequence labeling task that has garnered growing research interest in multilingual contexts. However, recent studies lack more robust feature alignment and finer aspect-level alignment. In this paper, we propose a novel framework, Multi-Scale and Multi-Objective optimization (MSMO) for cross-lingual ABSA. During multi-scale alignment, we achieve cross-lingual sentence-level and aspect-level alignment, aligning features of aspect terms in different contextual environments. Specifically, we introduce code-switched bilingual sentences into the language discriminator and consistency training modules to enhance the model’s robustness. During multi-objective optimization, we design two optimization objectives: supervised training and consistency training, aiming to enhance cross-lingual semantic alignment. To further improve model performance, we incorporate distilled knowledge of the target language into the model. Results show that MSMO significantly enhances cross-lingual ABSA by achieving state-of-the-art performance across multiple languages and models.

arxiv情報

著者 Chengyan Wu,Bolei Ma,Ningyuan Deng,Yanqing He,Yun Xue
発行日 2025-02-19 13:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis はコメントを受け付けていません

Learning Novel Transformer Architecture for Time-series Forecasting

要約

タイムシリーズ予測(TSP)タスクにおけるトランスベースのモデルの成功にもかかわらず、既存の変圧器アーキテクチャは依然として制限に直面しており、文献には代替アーキテクチャへの包括的な調査がありません。
これらの課題に対処するために、TSPタスクに合わせたトランスアーキテクチャの包括的な検索スペースを活用する新しいフレームワークであるAutoformer-TSを提案します。
私たちのフレームワークでは、微分可能なニューラルアーキテクチャ検索(DNAS)メソッド、AB-DARTSを紹介します。これは、アーキテクチャ内の最適な操作の識別を強化することにより、既存のDNASアプローチを改善します。
AutoFormer-TSは、代替の注意メカニズム、活性化機能、およびエンコード操作を体系的に調査し、従来の変圧器設計を超えて移動します。
広範な実験は、Autoformer-TSが一貫してさまざまなTSPベンチマークにわたって最先端のベースラインを上回り、合理的なトレーニング効率を維持しながら優れた予測精度を達成することを示しています。

要約(オリジナル)

Despite the success of Transformer-based models in the time-series prediction (TSP) tasks, the existing Transformer architecture still face limitations and the literature lacks comprehensive explorations into alternative architectures. To address these challenges, we propose AutoFormer-TS, a novel framework that leverages a comprehensive search space for Transformer architectures tailored to TSP tasks. Our framework introduces a differentiable neural architecture search (DNAS) method, AB-DARTS, which improves upon existing DNAS approaches by enhancing the identification of optimal operations within the architecture. AutoFormer-TS systematically explores alternative attention mechanisms, activation functions, and encoding operations, moving beyond the traditional Transformer design. Extensive experiments demonstrate that AutoFormer-TS consistently outperforms state-of-the-art baselines across various TSP benchmarks, achieving superior forecasting accuracy while maintaining reasonable training efficiency.

arxiv情報

著者 Juyuan Zhang,Wei Zhu,Jiechao Gao
発行日 2025-02-19 13:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Learning Novel Transformer Architecture for Time-series Forecasting はコメントを受け付けていません

Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values

要約

複雑な推論タスクで大規模な言語モデルを強化するための革新的な強化学習フレームワークであるDirect Value Optimization(DVO)を紹介します。
優先ラベルに依存する従来の方法とは異なり、DVOは個々の推論ステップで値信号を利用し、平均四角エラー損失を介してモデルを最適化します。
DVOの重要な利点は、そのきめんべての監督にあり、労働集約的な人間の注釈の必要性を回避します。
DVO内のターゲット値は、モンテカルロツリー検索または結果値モデルのいずれかを使用して推定されます。
数学的および常識的な推論タスクの両方に関する実証分析は、DVOがトレーニングの手順が少ない場合でも、既存のオフライン優先最適化手法を常に上回ることを示しています。
これらの調査結果は、推論能力を進める際の価値信号の重要性を強調し、明示的な人間の好み情報を欠くシナリオの下で優れた方法論としてDVOを強調しています。

要約(オリジナル)

We introduce Direct Value Optimization (DVO), an innovative reinforcement learning framework for enhancing large language models in complex reasoning tasks. Unlike traditional methods relying on preference labels, DVO utilizes value signals at individual reasoning steps, optimizing models via a mean squared error loss. The key benefit of DVO lies in its fine-grained supervision, circumventing the need for labor-intensive human annotations. Target values within the DVO are estimated using either Monte Carlo Tree Search or an outcome value model. Our empirical analysis on both mathematical and commonsense reasoning tasks shows that DVO consistently outperforms existing offline preference optimization techniques, even with fewer training steps. These findings underscore the importance of value signals in advancing reasoning capabilities and highlight DVO as a superior methodology under scenarios lacking explicit human preference information.

arxiv情報

著者 Hongbo Zhang,Han Cui,Guangsheng Bao,Linyi Yang,Jun Wang,Yue Zhang
発行日 2025-02-19 13:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values はコメントを受け付けていません

Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method

要約

時系列モデリングは、多くの現実世界のアプリケーションで非常に重要性を持ち、広範囲に研究されています。
事前に訓練された基礎モデルは、自然言語処理(NLP)とコンピュータービジョン(CV)の分野で印象的な進歩を遂げていますが、時系列ドメインでの開発はデータスパースによって制約されています。
一連の最近の研究では、大規模な言語モデル(LLM)がトークンの複雑なシーケンスよりも堅牢なパターン認識と推論能力を持っていることが実証されています。
ただし、現在の文献は、(a)時系列と自然言語のモダリティを効果的に整列させ、(b)推論効率を維持することとの間の高品質のバランスをまだ厳しくしています。
上記の問題に対処するために、Time-Llamaフレームワークを提案します。
Time-llamaは、最初に、線形トークン化メカニズムを介して、時系列の入力をトークン埋め込みに変換します。
第二に、時系列トークンの埋め込みは、テキストプロンプトと一致します。
第三に、時系列モデリングにLLMバックボーンをさらに適応させるために、動的な低ランク適応技術(D-LORA)を開発しました。
D-LORAは、各時系列入力のトランスバックボーンの各層で最も適切なLORAモジュールを動的に選択し、モデルの予測機能を高めます。
挑戦的な現実世界の時系列タスクの広範なコレクションに関する私たちの実験結果は、提案された方法が最先端の(SOTA)パフォーマンスを達成することを確認しています。

要約(オリジナル)

Time series modeling holds significant importance in many real-world applications and has been extensively studied. While pre-trained foundation models have made impressive strides in the fields of natural language processing (NLP) and computer vision (CV), their development in time series domains has been constrained by data sparsity. A series of recent studies have demonstrated that large language models (LLMs) possess robust pattern recognition and reasoning abilities over complex sequences of tokens. However, the current literature have yet striked a high-quality balance between (a) effectively aligning the time series and natural language modalities, and (b) keeping the inference efficiency. To address the above issues, we now propose the Time-LlaMA framework. Time-LlaMA first converts the time series input into token embeddings through a linear tokenization mechanism. Second, the time series token embeddings are aligned with the text prompts. Third, to further adapt the LLM backbone for time series modeling, we have developed a dynamic low-rank adaptation technique (D-LoRA). D-LoRA dynamically chooses the most suitable LoRA modules at each layer of the Transformer backbone for each time series input, enhancing the model’s predictive capabilities. Our experimental results on an extensive collection of challenging real-world time series tasks confirm that our proposed method achieves the state-of-the-art (SOTA) performance.

arxiv情報

著者 Juyuan Zhang,Wei Zhu,Jiechao Gao
発行日 2025-02-19 13:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method はコメントを受け付けていません

Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding

要約

大規模な言語モデル(LLMS)は、コンテキスト内学習(ICL)を通じてさまざまなタスクに優れており、いくつかのタスクの例は予測を導きます。
ただし、以前の調査では、LLMがICLの入力ラベルマッピング情報を見落としていることが多く、事前に訓練された知識に依存していることを強調しています。
この問題に対処するために、陽性と否定のコンテキストの例の間の出力分布を対比することにより入力ラベルマッピングを強調する新しい方法であるコンテキスト内コントラストデコード(ICCD)を紹介します。
7つの自然言語理解(NLU)タスクに関する実験は、ICCDメソッドが追加のトレーニングを必要とせずに6つの異なるスケールのLLMに一貫した大幅な改善(平均で最大+2.1改善)をもたらすことを示しています。
私たちのアプローチは多用途であり、さまざまなデモンストレーション選択方法でパフォーマンスを向上させ、その幅広い適用性と有効性を実証しています。
コードとスクリプトは公開されます。

要約(オリジナル)

Large language models (LLMs) excel at a range of tasks through in-context learning (ICL), where only a few task examples guide their predictions. However, prior research highlights that LLMs often overlook input-label mapping information in ICL, relying more on their pre-trained knowledge. To address this issue, we introduce In-Context Contrastive Decoding (ICCD), a novel method that emphasizes input-label mapping by contrasting the output distributions between positive and negative in-context examples. Experiments on 7 natural language understanding (NLU) tasks show that our ICCD method brings consistent and significant improvement (up to +2.1 improvement on average) upon 6 different scales of LLMs without requiring additional training. Our approach is versatile, enhancing performance with various demonstration selection methods, demonstrating its broad applicability and effectiveness. The code and scripts will be publicly released.

arxiv情報

著者 Keqin Peng,Liang Ding,Yuanxin Ouyang,Meng Fang,Yancheng Yuan,Dacheng Tao
発行日 2025-02-19 14:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding はコメントを受け付けていません