What is the Alignment Objective of GRPO?

要約

このメモでは、Group Policy Optimization(GRPO)アルゴリズムによって達成された好みの集約を調べます。これは、DeepSeek-R1-ZeroやDeepSeekmathなどの高度な人工知能モデルをトレーニングするために使用される強化学習方法です。
GRPOアルゴリズムは、報酬優先モデルを使用してポリシーをトレーニングします。これは、特定のコンテキストの出力のセットをサンプリングし、対応する報酬を観察し、これらの報酬値にシフトアンドスケールの正規化を適用することによって計算されます。
さらに、参照ポリシーからの逸脱を思いとどまらせるためのペナルティ関数が組み込まれています。
GRPOアルゴリズムの定常ポリシーを特徴付けることができるフレームワークを提示します。
この分析では、好みの集約は、RLHFなどの他のアプローチによって実装される標準的な対数プーリングと基本的に異なることが明らかになりました。
優先集合の正確な形式は、報酬優先モデルの定義方法とペナルティ関数から生じます。これは、逆カルバック繰り返し(kl)の分別ポリシーと参照ポリシーの間の相互作用に本質的に対応することを示しています。
興味深いことに、サイズ2のグループについては、報酬選好モデルは、ペアワイズ比較フィードバックに基づいた他のアライメント方法のものと同様に、ペアワイズ比較の好みに対応することを実証します。
サイズ2のグループ、および大きなグループサイズの限界において、バイナリの質問に対する集計の好みの明示的な特性を提供します。
これにより、正規化定数や質問の信頼マージンなどのパラメーターへの集計設定の依存性に関する洞察が得られます。
最後に、GRPOアルゴリズムを変更してペナルティとして直接KL発散を使用するか、スケールの正規化なしで報酬を使用することによって得られた好みの集約について説明します。

要約(オリジナル)

In this note, we examine the aggregation of preferences achieved by the Group Policy Optimisation (GRPO) algorithm, a reinforcement learning method used to train advanced artificial intelligence models such as DeepSeek-R1-Zero and DeepSeekMath. The GRPO algorithm trains a policy using a reward preference model, which is computed by sampling a set of outputs for a given context, observing the corresponding rewards, and applying shift-and-scale normalisation to these reward values. Additionally, it incorporates a penalty function to discourage deviations from a reference policy. We present a framework that enables us to characterise the stationary policies of the GRPO algorithm. This analysis reveals that the aggregation of preferences differs fundamentally from standard logarithmic pooling, which is implemented by other approaches such as RLHF. The precise form of preference aggregation arises from the way the reward preference model is defined and from the penalty function, which we show to essentially correspond to the reverse Kullback-Leibler (KL) divergence between the aggregation policy and the reference policy. Interestingly, we demonstrate that for groups of size two, the reward preference model corresponds to pairwise comparison preferences, similar to those in other alignment methods based on pairwise comparison feedback. We provide explicit characterisations of the aggregate preference for binary questions, for groups of size two, and in the limit of large group size. This provides insights into the dependence of the aggregate preference on parameters such as the regularisation constant and the confidence margin of question answers. Finally, we discuss the aggregation of preferences obtained by modifying the GRPO algorithm to use direct KL divergence as the penalty or to use rewards without scale normalisation.

arxiv情報

著者 Milan Vojnovic,Se-Young Yun
発行日 2025-03-13 16:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | What is the Alignment Objective of GRPO? はコメントを受け付けていません

GBSVR: Granular Ball Support Vector Regression

要約

サポートベクトル回帰(SVR)とそのバリアントは、回帰タスクの処理に広く使用されていますが、ソリューションには高価な二次プログラミングの問題を解決することが含まれているため、特に大規模なデータセットを扱う場合は、アプリケーションを制限します。
さらに、SVRは、外れ値に敏感であるため、そのパフォーマンスに悪影響を与える可能性のあるイプシロンに感受性の損失関数を使用します。
粒状ボールサポートベクター回帰(GBSVR)を提案して、粒状ボールの概念を使用して回帰の問題に取り組むことを提案します。
これらのボールは、機械学習タスクの複雑なデータスペースを簡素化するのに役立ちますが、私たちの知る限り、回帰問題について十分に調査されていません。
粒状ボールは、データポイントの近接に基づいてボールにグループをグループ化し、多数のデータポイントを粒状ボールをはるかに少ないことに置き換えることにより、SVRの計算コストを削減します。
この作業は、粒状ボールの構築を促進するための連続値属性の離散化方法も示唆しています。
提案されたアプローチの有効性はいくつかのベンチマークデータセットで評価され、既存の最先端のアプローチよりも優れています

要約(オリジナル)

Support Vector Regression (SVR) and its variants are widely used to handle regression tasks, however, since their solution involves solving an expensive quadratic programming problem, it limits its application, especially when dealing with large datasets. Additionally, SVR uses an epsilon-insensitive loss function which is sensitive to outliers and therefore can adversely affect its performance. We propose Granular Ball Support Vector Regression (GBSVR) to tackle problem of regression by using granular ball concept. These balls are useful in simplifying complex data spaces for machine learning tasks, however, to the best of our knowledge, they have not been sufficiently explored for regression problems. Granular balls group the data points into balls based on their proximity and reduce the computational cost in SVR by replacing the large number of data points with far fewer granular balls. This work also suggests a discretization method for continuous-valued attributes to facilitate the construction of granular balls. The effectiveness of the proposed approach is evaluated on several benchmark datasets and it outperforms existing state-of-the-art approaches

arxiv情報

著者 Reshma Rastogi,Ankush Bisht,Sanjay Kumar,Suresh Chandra
発行日 2025-03-13 16:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | GBSVR: Granular Ball Support Vector Regression はコメントを受け付けていません

Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

要約

この作業は、グラフを検索する最小限の例であるパススタータスクに関するものです。
グラフ$ g $は、スタートノード、$ s $から放射される$ d $アームが星形成されています。
言語モデル(LM)には、$ g $、$ s $、およびターゲットノード$ t $が与えられます。これは、アームの1つを終了し、$ t $を含むアームを生成することを担当しています。
このタスクの最小限の性質は、単一の選択肢を作成する必要があることを意味します。$ d $アームのどれに$ t $が含まれていますか?
デコーダーのみのLMSは、トレーニングの監督を吸収する学んだショートカットのため、$ 1/d $のチャンスを超えるこの基本タスクを解決できません。
この病理が過剰な監督によってどのように引き起こされるかを示し、タスクがデコーダーのみのLMSを介して解決可能であることを示す一連のソリューションを提示します。
タスクの最小限の性質は、タスクの分解を防ぐため、困難を引き起こすことがわかります。
私たちのソリューションは、次のトークン予測を介して訓練されたLMSに対する病理学とその意味についての洞察を提供します。

要約(オリジナル)

This work concerns the path-star task, a minimal example of searching over a graph. The graph, $G$, is star-shaped with $D$ arms radiating from a start node, $s$. A language model (LM) is given $G$, $s$, and a target node $t$, which ends one of the arms and is tasked with generating the arm containing $t$. The minimal nature of this task means only a single choice needs to be made: which of the $D$ arms contains $t$? Decoder-only LMs fail to solve this elementary task above $1/D$ chance due to a learned shortcut that absorbs training supervision. We show how this pathology is caused by excess supervision and we present a series of solutions demonstrating that the task is solvable via decoder-only LMs. We find that the task’s minimal nature causes its difficulty, as it prevents task decomposition. Our solutions provide insight into the pathology and its implications for LMs trained via next-token prediction.

arxiv情報

著者 Arvid Frydenlund
発行日 2025-03-13 16:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More はコメントを受け付けていません

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

要約

大規模な言語モデル(LLMS)とビジョン言語モデル(VLMS)の急速な進歩により、オープンボキャブラリーロボット操作システムの開発において大きな進歩が遂げられました。
ただし、多くの既存のアプローチは、オブジェクトのダイナミクスの重要性を見落としており、より複雑で動的なタスクに適用可能性を制限しています。
この作業では、キーポイントを介したダイナミクス学習と視覚的プロンプトを統合し、VLMSと学習ベースのニューラルダイナミクスモデルの両方を活用するオープンボキャブラリー操作システムであるKudaを紹介します。
私たちの重要な洞察は、キーポイントベースのターゲット仕様はVLMによって同時に解釈可能であり、モデルベースの計画のためにコスト関数に効率的に変換できることです。
言語の指示と視覚的観察が与えられた場合、Kudaは最初にキーポイントをRGB画像に割り当て、VLMをクエリしてターゲット仕様を生成します。
これらの抽象的なキーポイントベースの表現は、コスト関数に変換されます。コスト関数は、学習したダイナミクスモデルを使用してロボットの軌跡を生成します。
多様なオブジェクトカテゴリ全体のフリーフォーム言語命令、多目的相互作用、変形可能または粒状オブジェクトなど、さまざまな操作タスクでKUDAを評価し、フレームワークの有効性を実証します。
プロジェクトページは、http://kuda-dynamics.github.ioで入手できます。

要約(オリジナル)

With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

arxiv情報

著者 Zixian Liu,Mingtong Zhang,Yunzhu Li
発行日 2025-03-13 16:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation はコメントを受け付けていません

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

要約

モデルを教えるためのトレーニングデータを作成するプロセスは現在、モデルの弱点を手動で分析し、学生モデルを改善するデータを作成する方法を計画する人間によって駆動されます。
アノテーターとしてLLMを使用するアプローチは、人間の努力を減らしますが、それでも人間に評価からフィードバックを解釈し、学生が必要とするデータを作成するためにLLMを制御する必要があります。
自律データ生成エージェントまたは教師を作成することにより、この労働集約的なプロセスを自動化することは望ましいが、データ作成のフィードバック駆動型の反復的な閉ループをシミュレートできる環境が必要です。
このようなエージェントとそのモジュールの迅速でスケーラブルなテストを可能にするために、データ生成エージェントの教師環境のテストベッドであるDataENVGYMを導入します。
DataENVGYMは、データ生成ポリシー(トレーニングデータの作成計画を生成する)とデータ生成エンジン(計画をデータに変換する)で構成されるエージェントを含む、順次意思決定タスクとしてデータ生成をフレーム化します。
エージェントの目標は、学生のパフォーマンスを向上させることです。
生徒は生成されたデータで繰り返し訓練および評価され、そのフィードバック(エラーまたは弱いスキルの形で)が各反復後にエージェントに報告されます。
DataENVGYMには、州の表現と行動空間の3つのレベルの構造にわたる複数の教師環境インスタンス化が含まれます。
より構造化された環境は、推測されたスキルに基づいており、より解釈可能性とカリキュラム制御を提供します。
4つのドメイン(数学、コード、VQA、ツール使用)をサポートし、複数の学生と教師をテストします。
私たちの教育環境の例のエージェントは、タスクと設定全体で学生を繰り返し改善できます。
さらに、環境がさまざまなスキルレベルと主要モジュールのテストバリアントを教え、データ生成エージェント、エンジン、フィードバックメカニズムの改善における将来の作業を指摘することを示しています。

要約(オリジナル)

The process of creating training data to teach models is currently driven by humans, who manually analyze model weaknesses and plan how to create data that improves a student model. Approaches using LLMs as annotators reduce human effort, but still require humans to interpret feedback from evaluations and control the LLM to produce data the student needs. Automating this labor-intensive process by creating autonomous data generation agents – or teachers – is desirable, but requires environments that can simulate the feedback-driven, iterative, closed loop of data creation. To enable rapid, scalable testing for such agents and their modules, we introduce DataEnvGym, a testbed of teacher environments for data generation agents. DataEnvGym frames data generation as a sequential decision-making task, involving an agent consisting of a data generation policy (which generates a plan for creating training data) and a data generation engine (which transforms the plan into data), inside an environment that provides student feedback. The agent’s goal is to improve student performance. Students are iteratively trained and evaluated on generated data, and their feedback (in the form of errors or weak skills) is reported to the agent after each iteration. DataEnvGym includes multiple teacher environment instantiations across 3 levels of structure in the state representation and action space. More structured environments are based on inferred skills and offer more interpretability and curriculum control. We support 4 domains (math, code, VQA, and tool-use) and test multiple students and teachers. Example agents in our teaching environments can iteratively improve students across tasks and settings. Moreover, we show that environments teach different skill levels and test variants of key modules, pointing to future work in improving data generation agents, engines, and feedback mechanisms.

arxiv情報

著者 Zaid Khan,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal
発行日 2025-03-13 17:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback はコメントを受け付けていません

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

要約

複雑な目的を正確に指定することは困難であるため、補強学習ポリシーは、真の目標を近似するだけのプロキシ報酬関数を使用して最適化されます。
ただし、プロキシの報酬を最適化することで、報酬のハッキングに頻繁につながります。最適化された報酬機能は優れたプロキシになり、結果として得られるポリシーは、不特定の真の報酬に関してパフォーマンスが低下します。
ハッキングに報いる原則的なソリューションは、問題の良い定義がないことによって妨げられています。
このギャップに対処するために、最適化の下で崩壊する「参照ポリシー」によって見られる州のプロキシと真の報酬との相関関係に基づいて、報酬ハッキングの定義を紹介します。
この定義は、人間のフィードバック(RLHF)からの強化学習を含む、いくつかの現実的な設定にわたって報酬のハッキング動作をキャプチャしていることを示しています。
定式化を使用して、参照ポリシーへの正則化が報酬のハッキングを効果的に防ぐことができることを理論的に示します。
RLHFの現在の慣行は、この目的のためのアクション分布間のKLペナルティを適用しますが、我々の理論は、ポリシーの占有措置間の$ \ chi^2 $の相違を正規化することがより効果的であることを示唆しています。
このタイプの正規化の利点を直感的に示し、RLHFを含む4つの現実的な設定にわたって実際に報酬のハッキングをより緩和することを実証しています。
私たちのコードは、https://github.com/cassidylaidlaw/orpoで入手できます。

要約(オリジナル)

Because it is difficult to precisely specify complex objectives, reinforcement learning policies are often optimized using proxy reward functions that only approximate the true goal. However, optimizing proxy rewards frequently leads to reward hacking: the optimized reward function ceases to be a good proxy and the resulting policy performs poorly with respect to the unspecified true reward. Principled solutions to reward hacking have been impeded by the lack of a good definition for the problem. To address this gap, we introduce a definition of reward hacking based on the correlation between proxy and true rewards for states and actions seen by a ‘reference policy’ that breaks down under optimization. We show that this definition captures reward hacking behavior across several realistic settings, including in reinforcement learning from human feedback (RLHF). Using our formulation, we show theoretically that regularization to the reference policy can effectively prevent reward hacking. While the current practice in RLHF applies a KL penalty between action distributions for this purpose, our theory suggests regularizing the $\chi^2$ divergence between the policies’ occupancy measures can be more effective. We intuitively show the benefits of this type of regularization and demonstrate that it better mitigates reward hacking in practice across four realistic settings, including RLHF. Our code is available at https://github.com/cassidylaidlaw/orpo.

arxiv情報

著者 Cassidy Laidlaw,Shivam Singhal,Anca Dragan
発行日 2025-03-13 17:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking はコメントを受け付けていません

The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity

要約

重度の過剰適合を予測する古典的な統計理論にもかかわらず、最新の大規模な過剰パラメーター化されたニューラルネットワークは依然としてよく一般化されています。
この予期しないプロパティは、ネットワークのいわゆる暗黙のバイアスに起因します。これは、トレーニングデータに正しくラベル付けされる多くの可能性の中で、効果的に一般化するソリューションに収束する傾向を説明しています。
私たちの研究の目的は、非線形活性化機能がそれを形成することにどのように貢献するかに焦点を当てて、新しい視点からこのバイアスを探求することです。
最初に、連続体重の再測定対称性を除去するリパラメーター化を導入します。
第二に、カーネルレジームでは、この再評価を活用して、浅いニューラルネットワークをラドン変換に関連付ける最近の調査結果を一般化し、幅広いクラスの活性化関数によって誘発される暗黙的なバイアスの明示的な式を導き出します。
具体的には、ラドン変換とフーリエ変換の間の接続を利用することにより、カーネルレジームの誘導バイアスを、活性化関数に依存する方法で、高周波成分を罰するスペクトルセミノームを最小化すると解釈します。
最後に、適応体制では、ニューロンの活性化関数への入力がゼロであるハイパープレーンのクラスターの形成を促進する局所動的なアトラクタの存在を示し、多くのニューロンの応答関数間のアライメントを生成します。
これらの理論的結果をシミュレーションで確認します。
私たちの研究は、オーバーパラメーター化されたニューラルネットワークの一般化能力の根底にあるメカニズムと暗黙のバイアスとの関係をより深く理解し、より効率的で堅牢なモデルを設計するための潜在的な経路を提供します。

要約(オリジナル)

Despite classical statistical theory predicting severe overfitting, modern massively overparameterized neural networks still generalize well. This unexpected property is attributed to the network’s so-called implicit bias, which describes its propensity to converge to solutions that generalize effectively, among the many possible that correctly label the training data. The aim of our research is to explore this bias from a new perspective, focusing on how non-linear activation functions contribute to shaping it. First, we introduce a reparameterization which removes a continuous weight rescaling symmetry. Second, in the kernel regime, we leverage this reparameterization to generalize recent findings that relate shallow Neural Networks to the Radon transform, deriving an explicit formula for the implicit bias induced by a broad class of activation functions. Specifically, by utilizing the connection between the Radon transform and the Fourier transform, we interpret the kernel regime’s inductive bias as minimizing a spectral seminorm that penalizes high-frequency components, in a manner dependent on the activation function. Finally, in the adaptive regime, we demonstrate the existence of local dynamical attractors that facilitate the formation of clusters of hyperplanes where the input to a neuron’s activation function is zero, yielding alignment between many neurons’ response functions. We confirm these theoretical results with simulations. All together, our work provides a deeper understanding of the mechanisms underlying the generalization capabilities of overparameterized neural networks and its relation with the implicit bias, offering potential pathways for designing more efficient and robust models.

arxiv情報

著者 Justin Sahs,Ryan Pyle,Fabio Anselmi,Ankit Patel
発行日 2025-03-13 17:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity はコメントを受け付けていません

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

要約

チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めています。
しかし、最近の研究では、COTの推論が必ずしも忠実ではないことが示されています。つまり、COTの推論は、モデルが結論に到達する方法を常に反映しているとは限りません。
これまでのところ、これらの研究のほとんどは、明示的なバイアスが導入された不自然な文脈の不誠実さに焦点を合わせてきました。
対照的に、人工的なバイアスのない現実的なプロンプトで不忠実なベッドが発生する可能性があることを示します。
我々の結果は、フロンティアモデルにおけるいくつかの形態の不忠実な推論の無視不可能率を明らかにしています:Sonnet 3.7(16.3%)、Deepseek R1(5.3%)、ChatGPT-4O(7.0%)はすべて、質問の顕著な割合に不誠実に答えます。
具体的には、モデルはバイナリ質問に対する回答(「暗黙の事後合理化」)で暗黙のバイアスを合理化することがわかります。
たとえば、質問を個別に提示した場合、「xはyよりも大きいですか?」
そして、「yはxよりも大きいですか?」、モデルは時々、このような回答が論理的に矛盾しているにもかかわらず、両方の質問に「はい」との回答を正当化するか、両方の質問にnoに答えることを正当化することがあります。
また、復元エラー(Dziri et al。、2023)を調査します。ここでは、モデルが推論で誤ったエラーを作成し、その後黙って修正します。また、モデルはパトナムの質問の解決を簡素化するために明らかに非論理的推論を使用します(ハードベンチマーク)。
私たちの調査結果は、COTの監視に依存して、望ましくない動作を検出することに依存しているAIの安全作業の課題を引き起こします。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced state-of-the-art AI capabilities. However, recent studies have shown that CoT reasoning is not always faithful, i.e. CoT reasoning does not always reflect how models arrive at conclusions. So far, most of these studies have focused on unfaithfulness in unnatural contexts where an explicit bias has been introduced. In contrast, we show that unfaithful CoT can occur on realistic prompts with no artificial bias. Our results reveal non-negligible rates of several forms of unfaithful reasoning in frontier models: Sonnet 3.7 (16.3%), DeepSeek R1 (5.3%) and ChatGPT-4o (7.0%) all answer a notable proportion of question pairs unfaithfully. Specifically, we find that models rationalize their implicit biases in answers to binary questions (‘implicit post-hoc rationalization’). For example, when separately presented with the questions ‘Is X bigger than Y?’ and ‘Is Y bigger than X?’, models sometimes produce superficially coherent arguments to justify answering Yes to both questions or No to both questions, despite such responses being logically contradictory. We also investigate restoration errors (Dziri et al., 2023), where models make and then silently correct errors in their reasoning, and unfaithful shortcuts, where models use clearly illogical reasoning to simplify solving problems in Putnam questions (a hard benchmark). Our findings raise challenges for AI safety work that relies on monitoring CoT to detect undesired behavior.

arxiv情報

著者 Iván Arcuschin,Jett Janiak,Robert Krzyzanowski,Senthooran Rajamanoharan,Neel Nanda,Arthur Conmy
発行日 2025-03-13 17:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Chain-of-Thought Reasoning In The Wild Is Not Always Faithful はコメントを受け付けていません

Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models

要約

大規模な言語モデルを複数のタスクに適応させると、クロススキル干渉を引き起こす可能性があり、あるスキルの干渉を引き起こす可能性があり、あるスキルの改善が別のスキルを劣化させます。
Loraなどの方法は、重量レベルで直交の制約を課していますが、隠された状態表現の干渉に完全に対処していません。
複数のオルソーマルサブスペース変換を学習する新しい表現ベースのアプローチである構成サブスペース表現微調整(CS-Reft)を提案します。
CS-Reftは、重量行列ではなく隠された状態でこれらの部分空間編集を分離することにより、クロスタスクの競合をより効果的に防ぎます。
アルパカエバルのベンチマークでは、Llama-2-7BにCS-Reftを適用すると93.94%の勝利が達成され、GPT-3.5ターボ(86.30%)を超えて、モデルパラメーターの0.0098%のみが必要です。
これらの調査結果は、単純なルーターを介して構成された特殊な表現編集が、最小限のオーバーヘッドで次のマルチタスク命令を大幅に強化することを示しています。

要約(オリジナル)

Adapting large language models to multiple tasks can cause cross-skill interference, where improvements for one skill degrade another. While methods such as LoRA impose orthogonality constraints at the weight level, they do not fully address interference in hidden-state representations. We propose Compositional Subspace Representation Fine-tuning (CS-ReFT), a novel representation-based approach that learns multiple orthonormal subspace transformations, each specializing in a distinct skill, and composes them via a lightweight router. By isolating these subspace edits in the hidden state, rather than weight matrices, CS-ReFT prevents cross-task conflicts more effectively. On the AlpacaEval benchmark, applying CS-ReFT to Llama-2-7B achieves a 93.94% win rate, surpassing GPT-3.5 Turbo (86.30%) while requiring only 0.0098% of model parameters. These findings show that specialized representation edits, composed via a simple router, significantly enhance multi-task instruction following with minimal overhead.

arxiv情報

著者 Andy Zhou
発行日 2025-03-13 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models はコメントを受け付けていません

Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search

要約

ツリー検索の観点から大規模な言語モデル(LLM)安全性の漸進的な侵食をモデル化する多ターン敵対的なフレームワークであるSiegeを紹介します。
1つの綿密に設計されたプロンプトに依存するシングルターンの脱獄とは異なり、Siegeは各ターンで会話を幅広い方法で拡大し、以前の回答から部分的なコンプライアンスを活用する複数の敵対的なプロンプトを分岐します。
これらの漸進的なポリシーの漏れを追跡し、その後のクエリに再注入することにより、包囲は、軽微な譲歩が完全に許可されていない出力に蓄積する方法を明らかにします。
Jailbreakbench Datasetの評価は、CrescendoやGoatなどのベースラインよりも少ないクエリを使用して、SiegeがGPT-3.5ターボで100%の成功率、GPT-4で100%の成功率を達成し、GPT-4で97%を達成することを示しています。
このツリー検索方法論は、モデルのセーフガードが連続したダイアログのターンでどのように低下​​し、言語モデルの堅牢なマルチターンテスト手順の緊急性を強調しているかについての詳細なビューを提供します。

要約(オリジナル)

We introduce Siege, a multi-turn adversarial framework that models the gradual erosion of Large Language Model (LLM) safety through a tree search perspective. Unlike single-turn jailbreaks that rely on one meticulously engineered prompt, Siege expands the conversation at each turn in a breadth-first fashion, branching out multiple adversarial prompts that exploit partial compliance from previous responses. By tracking these incremental policy leaks and re-injecting them into subsequent queries, Siege reveals how minor concessions can accumulate into fully disallowed outputs. Evaluations on the JailbreakBench dataset show that Siege achieves a 100% success rate on GPT-3.5-turbo and 97% on GPT-4 in a single multi-turn run, using fewer queries than baselines such as Crescendo or GOAT. This tree search methodology offers an in-depth view of how model safeguards degrade over successive dialogue turns, underscoring the urgency of robust multi-turn testing procedures for language models.

arxiv情報

著者 Andy Zhou
発行日 2025-03-13 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search はコメントを受け付けていません