Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge

要約

大規模な言語モデル(LLMS)は、微調整を通じてタスク固有の強力な機能を示しますが、複数の微調整されたモデルを統合すると、命令に従うコンポーネントが重複するため、パフォーマンスが低下します。
タスク算術(TA)は、微調整から導出されたタスクベクトルを組み合わせて、マルチタスクの学習とタスクの忘却を可能にしますが、一般的な指導に従う動作からタスク固有の知識を分離するのに苦労します。
これに対処するために、レイヤーアウェアタスク算術(LATA)を提案します。これは、命令フォローまたはタスク固有のコンポーネントとのアライメントに基づいて、レイヤー固有の重みをタスクベクトルに割り当てる新しいアプローチです。
タスクに関連するレイヤーを増幅し、命令に従うレイヤーを減衰させることにより、LATAはタスクの学習とパフォーマンスを忘れながら、全体的なモデルのユーティリティを維持します。
Wikitext-2、GSM8K、およびHumanvalを含む複数のベンチマークでの実験は、ラタがマルチタスク学習と選択的タスクの両方で既存の方法を上回ることを示しています。
私たちの調査結果は、タスク固有の一般的な知識を解き放つ際のレイヤーごとの分析の重要性を強調し、効率的なモデルのマージと編集のための堅牢なフレームワークを提供します。

要約(オリジナル)

Large language models (LLMs) demonstrate strong task-specific capabilities through fine-tuning, but merging multiple fine-tuned models often leads to degraded performance due to overlapping instruction-following components. Task Arithmetic (TA), which combines task vectors derived from fine-tuning, enables multi-task learning and task forgetting but struggles to isolate task-specific knowledge from general instruction-following behavior. To address this, we propose Layer-Aware Task Arithmetic (LATA), a novel approach that assigns layer-specific weights to task vectors based on their alignment with instruction-following or task-specific components. By amplifying task-relevant layers and attenuating instruction-following layers, LATA improves task learning and forgetting performance while preserving overall model utility. Experiments on multiple benchmarks, including WikiText-2, GSM8K, and HumanEval, demonstrate that LATA outperforms existing methods in both multi-task learning and selective task forgetting, achieving higher task accuracy and alignment with minimal degradation in output quality. Our findings highlight the importance of layer-wise analysis in disentangling task-specific and general-purpose knowledge, offering a robust framework for efficient model merging and editing.

arxiv情報

著者 Yan-Lun Chen,Yi-Ru Wei,Chia-Yi Hsu,Chia-Mu Yu,Chun-Ying Huang,Ying-Dar Lin,Yu-Sung Wu,Wei-Bin Lee
発行日 2025-02-27 15:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge はコメントを受け付けていません

EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance

要約

大規模な言語モデル(LLM)が進歩し続けるにつれて、さまざまなアプリケーションにわたる長いコンテキストの高品質で高速な処理の需要が増加しています。
KVキャッシュは、以前に生成されたキーおよびバリュートークンを保存し、推論中の冗長な計算を効果的に削減するため、広く採用されています。
ただし、メモリオーバーヘッドが重大な懸念になるにつれて、KVキャッシュの効率的な圧縮により注目が高まっています。
ほとんどの既存の方法は、重要なトークンの識別と圧縮戦略の設計という2つの視点から圧縮を実行します。
ただし、これらのアプローチは、累積注意スコアまたは位置エンコーディングの影響により、多くの場合、重要なトークンの偏った分布を生成します。
さらに、彼らは異なる頭のスパース性と冗長性を見落としているため、頭レベルで最も効果的な情報を維持するのが難しくなります。
この目的のために、EMSにこれらの制限を克服することを提案し、極端な圧縮比下でより良いKVキャッシュ圧縮を達成します。
具体的には、トークンの重要性をよりよく識別するために、グローバルおよびローカルKVトークンの両方から蓄積された注意スコアを組み合わせたグローバルローカルスコアを導入します。
圧縮戦略のために、私たちは、異なるヘッドにわたるKVトークンのスパース性と冗長性を説明する、適応的で統一された統合された均一なフレームワークを設計します。
さらに、効率を高めるためにゼロクラスのメカニズムを介してヘッドワイズパラレル圧縮を実装します。
広範な実験では、極端な圧縮比下でもSOTAのパフォーマンスが示されています。
EMSは一貫して最も低い困惑を達成し、256キャッシュ予算の下でロングベンチで4 LLMにわたって1.28ポイントを超えるスコアを改善し、キャッシュ予算で95%の検索精度を保持し、ヘイスタックの針タスクのコンテキスト長の2%未満です。

要約(オリジナル)

As large language models (LLMs) continue to advance, the demand for higher quality and faster processing of long contexts across various applications is growing. KV cache is widely adopted as it stores previously generated key and value tokens, effectively reducing redundant computations during inference. However, as memory overhead becomes a significant concern, efficient compression of KV cache has gained increasing attention. Most existing methods perform compression from two perspectives: identifying important tokens and designing compression strategies. However, these approaches often produce biased distributions of important tokens due to the influence of accumulated attention scores or positional encoding. Furthermore, they overlook the sparsity and redundancy across different heads, which leads to difficulties in preserving the most effective information at the head level. To this end, we propose EMS to overcome these limitations, while achieving better KV cache compression under extreme compression ratios. Specifically, we introduce a Global-Local score that combines accumulated attention scores from both global and local KV tokens to better identify the token importance. For the compression strategy, we design an adaptive and unified Evict-then-Merge framework that accounts for the sparsity and redundancy of KV tokens across different heads. Additionally, we implement the head-wise parallel compression through a zero-class mechanism to enhance efficiency. Extensive experiments demonstrate our SOTA performance even under extreme compression ratios. EMS consistently achieves the lowest perplexity, improves scores by over 1.28 points across four LLMs on LongBench under a 256 cache budget, and preserves 95% retrieval accuracy with a cache budget less than 2% of the context length in the Needle-in-a-Haystack task.

arxiv情報

著者 Yingxin Li,Ye Li,Yuan Meng,Xinzhu Ma,Zihan Geng,Shutao Xia,Zhi Wang
発行日 2025-02-27 15:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance はコメントを受け付けていません

ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models

要約

eコマースなどのフィールドでの大規模な言語モデル(LLM)の使用が増えているため、ドメイン固有の概念評価ベンチマークは、ドメイン機能を評価するために重要です。
既存のLLMは、複雑なeコマースアプリケーション内で事実上誤った情報を生成する可能性があります。
したがって、eコマースコンセプトベンチマークを構築する必要があります。
既存のベンチマークは、2つの主要な課題に遭遇します。(1)タスクの不均一で多様な性質を処理します。(2)eコマース分野内の一般性と特異性を区別します。
これらの問題に対処するために、基本的なeコマースの概念に焦点を当てたスケーラブルな質問回答ベンチマークである\ textbf {chishecomqa}を提案します。
中国のqaは、3つのコア特性の上に構築されています。
基本的な概念は、さまざまな電子商取引タスクに適用できるように設計されているため、不均一性と多様性の課題に対処します。
さらに、一般性と特異性のバランスを慎重にバランスをとることにより、中国のCOMQAは幅広いeコマースの概念を効果的に区別し、ドメイン機能の正確な検証を可能にします。
これを実現し、LLM検証、検索の高等発電(RAG)検証、および厳密な手動注釈を組み合わせたスケーラブルなベンチマーク構築プロセスを通じて達成します。
中国語に基づいて、主流のLLMについて広範な評価を実施し、いくつかの貴重な洞察を提供します。
ChineseComqaが将来のドメイン固有の評価を導き、eコマースアプリケーションでのより広範なLLM採用を促進できることを願っています。

要約(オリジナル)

With the increasing use of Large Language Models (LLMs) in fields such as e-commerce, domain-specific concept evaluation benchmarks are crucial for assessing their domain capabilities. Existing LLMs may generate factually incorrect information within the complex e-commerce applications. Therefore, it is necessary to build an e-commerce concept benchmark. Existing benchmarks encounter two primary challenges: (1) handle the heterogeneous and diverse nature of tasks, (2) distinguish between generality and specificity within the e-commerce field. To address these problems, we propose \textbf{ChineseEcomQA}, a scalable question-answering benchmark focused on fundamental e-commerce concepts. ChineseEcomQA is built on three core characteristics: \textbf{Focus on Fundamental Concept}, \textbf{E-commerce Generality} and \textbf{E-commerce Expertise}. Fundamental concepts are designed to be applicable across a diverse array of e-commerce tasks, thus addressing the challenge of heterogeneity and diversity. Additionally, by carefully balancing generality and specificity, ChineseEcomQA effectively differentiates between broad e-commerce concepts, allowing for precise validation of domain capabilities. We achieve this through a scalable benchmark construction process that combines LLM validation, Retrieval-Augmented Generation (RAG) validation, and rigorous manual annotation. Based on ChineseEcomQA, we conduct extensive evaluations on mainstream LLMs and provide some valuable insights. We hope that ChineseEcomQA could guide future domain-specific evaluations, and facilitate broader LLM adoption in e-commerce applications.

arxiv情報

著者 Haibin Chen,Kangtao Lv,Chengwei Hu,Yanshi Li,Yujin Yuan,Yancheng He,Xingyao Zhang,Langming Liu,Shilei Liu,Wenbo Su,Bo Zheng
発行日 2025-02-27 15:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models はコメントを受け付けていません

Granite Embedding Models

要約

英語と多言語の両方の機能を備えた、密な網状およびまばらな検索アーキテクチャにまたがる、検索タスク用に設計されたエンコーダーベースの埋め込みモデルのファミリーである花崗岩の埋め込みモデルを紹介します。
このレポートは、これらの非常に効果的な12層埋め込みモデルのトレーニングの技術的な詳細と、効率的な6層蒸留モデルを提供します。
広範な評価によると、検索指向の事前トレーニング、対照的な微調整、知識の蒸留、モデルのマージなどのテクニックで開発されたモデルは、内部IBMの回収と検索の両方で同様のサイズの公的に利用可能なモデルを大幅に上回り、広く使用されている情報のベンチマークで広く使用されている情報をトレーニングしながら、広く使用されています。
すべての花崗岩の埋め込みモデルをApache 2.0ライセンスで公開し、https://huggingface.co/collections/ibm-graniteで研究と商業用の両方を可能にします。

要約(オリジナル)

We introduce the Granite Embedding models, a family of encoder-based embedding models designed for retrieval tasks, spanning dense-retrieval and sparse retrieval architectures, with both English and Multilingual capabilities. This report provides the technical details of training these highly effective 12 layer embedding models, along with their efficient 6 layer distilled counterparts. Extensive evaluations show that the models, developed with techniques like retrieval oriented pretraining, contrastive finetuning, knowledge distillation, and model merging significantly outperform publicly available models of similar sizes on both internal IBM retrieval and search tasks, and have equivalent performance on widely used information retrieval benchmarks, while being trained on high-quality data suitable for enterprise use. We publicly release all our Granite Embedding models under the Apache 2.0 license, allowing both research and commercial use at https://huggingface.co/collections/ibm-granite.

arxiv情報

著者 Parul Awasthy,Aashka Trivedi,Yulong Li,Mihaela Bornea,David Cox,Abraham Daniels,Martin Franz,Gabe Goodhart,Bhavani Iyer,Vishwajeet Kumar,Luis Lastras,Scott McCarley,Rudra Murthy,Vignesh P,Sara Rosenthal,Salim Roukos,Jaydeep Sen,Sukriti Sharma,Avirup Sil,Kate Soule,Arafat Sultan,Radu Florian
発行日 2025-02-27 15:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Granite Embedding Models はコメントを受け付けていません

Sheffield’s Submission to the AmericasNLP Shared Task on Machine Translation into Indigenous Languages

要約

この論文では、シェフィールド大学のAmericasNLP 2023への提出について説明します。これは、スペイン語から11の先住民族への翻訳を構成する先住民言語への機械翻訳に関する共有タスクです。
私たちのアプローチは、NLLB-200のさまざまなバリエーションを拡張、トレーニング、アンサンミングすることで構成されています。
主催者から提供されたデータと、憲法、ハンドブック、ニュース記事、単一言語データから生成された逆翻訳など、他のさまざまなソースからのデータを使用します。
DEVセットでは、当社の最高の提出物は、すべての言語で平均CHRF 11%のベースラインを上回り、特にAymara、Guarani、およびQuechuaの大幅な改善があります。
テストセットでは、すべての提出物の中で最も高い平均CHRFを達成し、11の言語のうち4つで最初にランク付けされ、すべての言語のトップ3で提出の少なくとも1つのランクがランク付けされます。

要約(オリジナル)

In this paper we describe the University of Sheffield’s submission to the AmericasNLP 2023 Shared Task on Machine Translation into Indigenous Languages which comprises the translation from Spanish to eleven indigenous languages. Our approach consists of extending, training, and ensembling different variations of NLLB-200. We use data provided by the organizers and data from various other sources such as constitutions, handbooks, news articles, and backtranslations generated from monolingual data. On the dev set, our best submission outperforms the baseline by 11% average chrF across all languages, with substantial improvements particularly for Aymara, Guarani and Quechua. On the test set, we achieve the highest average chrF of all the submissions, we rank first in four of the eleven languages, and at least one of our submissions ranks in the top 3 for all languages.

arxiv情報

著者 Edward Gow-Smith,Danae Sánchez Villegas
発行日 2025-02-27 15:47:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sheffield’s Submission to the AmericasNLP Shared Task on Machine Translation into Indigenous Languages はコメントを受け付けていません

Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval

要約

検索された生成(RAG)は、関連する外部知識を取得および組み込むことにより、言語モデルを強化します。
ただし、従来の取得プロセスは、クエリが複数の検索手順を必要とするか、まったく必要とされる場合がある現実世界のシナリオには最適化されていない場合があります。
この論文では、言語モデルの中間層からの隠された状態表現を利用して、特定のクエリの追加の検索の必要性を適応的に決定するプロービングラグを提案します。
事前に訓練されたProberを採用することにより、プロービングラグはモデルの内部認知を効果的にキャプチャし、外部ドキュメントの取得に関する信頼できる意思決定を可能にします。
5つのオープンドメインQAデータセットにわたる実験結果は、冗長検索手順の数を減らしながら、プロービングラグが以前の方法を上回ることを示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) enhances language models by retrieving and incorporating relevant external knowledge. However, traditional retrieve-and-generate processes may not be optimized for real-world scenarios, where queries might require multiple retrieval steps or none at all. In this paper, we propose a Probing-RAG, which utilizes the hidden state representations from the intermediate layers of language models to adaptively determine the necessity of additional retrievals for a given query. By employing a pre-trained prober, Probing-RAG effectively captures the model’s internal cognition, enabling reliable decision-making about retrieving external documents. Experimental results across five open-domain QA datasets demonstrate that Probing-RAG outperforms previous methods while reducing the number of redundant retrieval steps.

arxiv情報

著者 Ingeol Baek,Hwan Chang,Byeongjeong Kim,Jimin Lee,Hwanhee Lee
発行日 2025-02-27 15:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval はコメントを受け付けていません

FINEREASON: Evaluating and Improving LLMs’ Deliberate Reasoning through Reflective Puzzle Solving

要約

多くの挑戦的な推論タスクには、迅速で直感的な応答だけでなく、より意図的なマルチステップアプローチが必要です。
大規模な言語モデル(LLMS)の最近の進捗状況は、「システム1」の迅速な反応の方法から、「システム2」スタイルの反射と補正の問題解決への重要なシフトを強調しています。
ただし、現在のベンチマークは、最終回答の精度に大きく依存しており、モデルの中間推論ステップの多くが未検証のままです。
これは、推論プロセス内で間違いを反映して修正するモデルの能力を評価することができません。
このギャップを埋めるために、LLMSの推論能力を細かく評価するためのロジックパズルベンチマークであるFinerEasonを紹介します。
各パズルはアトミックステップに分解できるため、中間正しさの厳密な検証に最適です。
これに基づいて、モデルが現在の状況を評価し、次の動きを計画する方法を包括的に評価するために、州のチェックと状態移行の2つのタスクを紹介します。
より広範な研究をサポートするために、一般的な数学タスクのパフォーマンスを向上させることを目的としたパズルトレーニングセットも提供します。
州のチェックおよび遷移データでトレーニングされたモデルが、GSM8Kで最大5.1%の数学推論の利益を示していることを示しています。

要約(オリジナル)

Many challenging reasoning tasks require not just rapid, intuitive responses, but a more deliberate, multi-step approach. Recent progress in large language models (LLMs) highlights an important shift from the ‘System 1’ way of quick reactions to the ‘System 2′ style of reflection-and-correction problem solving. However, current benchmarks heavily rely on the final-answer accuracy, leaving much of a model’s intermediate reasoning steps unexamined. This fails to assess the model’s ability to reflect and rectify mistakes within the reasoning process. To bridge this gap, we introduce FINEREASON, a logic-puzzle benchmark for fine-grained evaluation of LLMs’ reasoning capabilities. Each puzzle can be decomposed into atomic steps, making it ideal for rigorous validation of intermediate correctness. Building on this, we introduce two tasks: state checking, and state transition, for a comprehensive evaluation of how models assess the current situation and plan the next move. To support broader research, we also provide a puzzle training set aimed at enhancing performance on general mathematical tasks. We show that models trained on our state checking and transition data demonstrate gains in math reasoning by up to 5.1% on GSM8K.

arxiv情報

著者 Guizhen Chen,Weiwen Xu,Hao Zhang,Hou Pong Chan,Chaoqun Liu,Lidong Bing,Deli Zhao,Anh Tuan Luu,Yu Rong
発行日 2025-02-27 16:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FINEREASON: Evaluating and Improving LLMs’ Deliberate Reasoning through Reflective Puzzle Solving はコメントを受け付けていません

From Retrieval to Generation: Comparing Different Approaches

要約

知識集約型のタスク、特にオープンドメインの質問応答(ODQA)、ドキュメントの再ランキング、および検索された高級言語モデリングには、検索の精度と生成的柔軟性のバランスが必要です。
BM25や密度の高いパッセージ検索(DPR)などの従来の検索モデルは、大きなコーパスから効率的に回収されますが、多くの場合、意味の深さがありません。
GPT-4-Oのような生成モデルは、より豊かな文脈的理解を提供しますが、事実上の一貫性を維持する上で課題に直面しています。
この作業では、ODQAおよび関連する検索された活動タスクでのパフォーマンスに主に焦点を当てた、検索ベース、生成ベース、およびハイブリッドモデルの体系的な評価を実施します。
我々の結果は、密集したレトリバー、特にDPRがNQで50.17 \%の上位1精度でODQAで強力なパフォーマンスを達成し、ハイブリッドモデルが43.42(BM25)から52.59にNDCG@10スコアを改善し、ドキュメントの再ランキングの強度を示していることを示しています。
さらに、Wikitext-103を使用して言語モデリングタスクを分析し、BM25のような検索ベースのアプローチは、生成的およびハイブリッドメソッドと比較して低い困惑を達成し、検索された生成の有用性を強調することを示しています。
各アプローチが優れている条件に関する詳細な比較と実用的な洞察を提供することにより、ODQAおよび関連する知識集約型アプリケーションの検索、再ランキング、および生成モデルの将来の最適化を促進することを目指しています。

要約(オリジナル)

Knowledge-intensive tasks, particularly open-domain question answering (ODQA), document reranking, and retrieval-augmented language modeling, require a balance between retrieval accuracy and generative flexibility. Traditional retrieval models such as BM25 and Dense Passage Retrieval (DPR), efficiently retrieve from large corpora but often lack semantic depth. Generative models like GPT-4-o provide richer contextual understanding but face challenges in maintaining factual consistency. In this work, we conduct a systematic evaluation of retrieval-based, generation-based, and hybrid models, with a primary focus on their performance in ODQA and related retrieval-augmented tasks. Our results show that dense retrievers, particularly DPR, achieve strong performance in ODQA with a top-1 accuracy of 50.17\% on NQ, while hybrid models improve nDCG@10 scores on BEIR from 43.42 (BM25) to 52.59, demonstrating their strength in document reranking. Additionally, we analyze language modeling tasks using WikiText-103, showing that retrieval-based approaches like BM25 achieve lower perplexity compared to generative and hybrid methods, highlighting their utility in retrieval-augmented generation. By providing detailed comparisons and practical insights into the conditions where each approach excels, we aim to facilitate future optimizations in retrieval, reranking, and generative models for ODQA and related knowledge-intensive applications.

arxiv情報

著者 Abdelrahman Abdallah,Jamshid Mozafari,Bhawna Piryani,Mohammed Ali,Adam Jatowt
発行日 2025-02-27 16:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Retrieval to Generation: Comparing Different Approaches はコメントを受け付けていません

Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets

要約

コード関連のタスクに大規模な言語モデル(LLM)を採用することは、トレーニングデータセットのセキュリティに関する懸念を提起しました。
重要な脅威の1つは、モデルの動作を操作するためのトレーニングデータに構文的に有効だが機能的に冗長コードが注入されているデッドコード中毒です。
このような攻撃は、ニューラルコード検索システムのパフォーマンスを低下させ、偏ったコードの提案または不安定なコードの提案につながる可能性があります。
トークンレベルの困惑分析などの既存の検出方法は、プログラミング言語の構造的およびコンテキスト特性により、死んだコードを効果的に特定できません。
この論文では、コードの構造特性に合わせた新しいラインレベルの検出およびクレンジング方法であるDEPA(Dead Code Perplexity Analysis)を提案します。
DEPAは、コード行間のコンテキスト関係を活用することにより、ラインレベルの困惑を計算し、ファイル内の全体的な分布と困惑を比較することにより、異常な行を識別します。
ベンチマークデータセットでの実験は、DEPAが既存の方法を大幅に上回り、検出F1スコアの0.14-0.19の改善を達成し、中毒セグメント局在精度の44-65%の増加を達成することを示しています。
さらに、DEPAは検出速度を0.62〜23倍に強化し、大規模なデータセットクレンジングに実用的です。
全体として、DEPAは、死んだコード中毒の独自の課題に対処することにより、コード生成モデルトレーニングデータセットの整合性を保護するための堅牢で効率的なソリューションを提供します。

要約(オリジナル)

The increasing adoption of large language models (LLMs) for code-related tasks has raised concerns about the security of their training datasets. One critical threat is dead code poisoning, where syntactically valid but functionally redundant code is injected into training data to manipulate model behavior. Such attacks can degrade the performance of neural code search systems, leading to biased or insecure code suggestions. Existing detection methods, such as token-level perplexity analysis, fail to effectively identify dead code due to the structural and contextual characteristics of programming languages. In this paper, we propose DePA (Dead Code Perplexity Analysis), a novel line-level detection and cleansing method tailored to the structural properties of code. DePA computes line-level perplexity by leveraging the contextual relationships between code lines and identifies anomalous lines by comparing their perplexity to the overall distribution within the file. Our experiments on benchmark datasets demonstrate that DePA significantly outperforms existing methods, achieving 0.14-0.19 improvement in detection F1-score and a 44-65% increase in poisoned segment localization precision. Furthermore, DePA enhances detection speed by 0.62-23x, making it practical for large-scale dataset cleansing. Overall, by addressing the unique challenges of dead code poisoning, DePA provides a robust and efficient solution for safeguarding the integrity of code generation model training datasets.

arxiv情報

著者 Chichien Tsai,Chiamu Yu,Yingdar Lin,Yusung Wu,Weibin Lee
発行日 2025-02-27 16:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets はコメントを受け付けていません

RRM: Robust Reward Model Training Mitigates Reward Hacking

要約

報酬モデル(RMS)は、大規模な言語モデル(LLM)を人間の好みに合わせて極めて重要な役割を果たします。
ただし、特定のプロンプトに関連付けられた応答ペアに依存している従来のRMトレーニングは、応答の長さや形式などのプロンプトに依存しないアーティファクトからプロンプト駆動型の好みを解くのに苦労しています。
この作業では、現在のRMトレーニング方法の基本的な制限を公開します。この場合、RMSは好みを決定する際にコンテキスト信号と無関係なアーティファクトを効果的に区別できません。
これに対処するために、これらのアーティファクトから独立した好みを学習する因果フレームワークを紹介し、それらを排除するように設計された新しいデータ増強技術を提案します。
広範な実験は、私たちのアプローチが望ましくないアーティファクトをうまく除去し、より堅牢な報酬モデル(RRM)を生成することを示しています。
RRMは、Gemma-2-9B-ITでトレーニングされたペアワイズ報酬モデルのパフォーマンスをRewardBenchで改善し、精度を80.61%から84.15%に増加させます。
さらに、RMとRRMの両方を使用して2つのDPOポリシーをトレーニングし、RRMがDPOに沿ったポリシーを大幅に強化し、MTベンチスコアを7.27から8.31に改善し、Alpacaeval-2の長さ制御されたウィンレートを33.46%から52.49%に改善することを示しています。

要約(オリジナル)

Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.

arxiv情報

著者 Tianqi Liu,Wei Xiong,Jie Ren,Lichang Chen,Junru Wu,Rishabh Joshi,Yang Gao,Jiaming Shen,Zhen Qin,Tianhe Yu,Daniel Sohn,Anastasiia Makarova,Jeremiah Liu,Yuan Liu,Bilal Piot,Abe Ittycheriah,Aviral Kumar,Mohammad Saleh
発行日 2025-02-27 16:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RRM: Robust Reward Model Training Mitigates Reward Hacking はコメントを受け付けていません