要約
大規模な言語モデル(LLMS)と人間の価値の調整は、重要なものであるが、4つの重要な課題によって妨げられているが、(1)バランスの取れた安全性データセットの不足、(2)アライメント税、(3)浅いアライメントによる脱獄攻撃に対する脆弱性、および(4)タスクの困難に応じて報酬を動的に適応させることができる。
これらの制限に対処するために、メンバーシップ推論攻撃のシャドウモデルに触発された新しいアライメントアプローチである、髪(硬度を意識する逆補強学習)を導入します。
私たちのアプローチは、2つの主要なコンポーネントで構成されています。(1)LLMSの内省的推論機能を活用する構造化されたプロンプトを使用した7つの有害なカテゴリのバランスの取れた安全チェーン(COD)データセットの構築。
(2)グループ相対ポリシー最適化(GRPO)を備えたカテゴリ固有の報酬モデルのトレーニング、データレベルとモデルレベルの両方でタスクの難易度に最適化を動的に調整します。
4つの無害性と4つの有用性ベンチマークにわたる包括的な実験は、髪が最先端のパフォーマンスを達成し、高レベルの有用性を維持しながら、安全性のすべてのベースライン方法を上回ることを示しています。
要約(オリジナル)
The alignment of large language models (LLMs) with human values remains critical yet hindered by four key challenges: (1) scarcity of balanced safety datasets, (2) alignment tax, (3) vulnerability to jailbreak attacks due to shallow alignment, and (4) inability to dynamically adapt rewards according to task difficulty. To address these limitations, we introduce HAIR (Hardness-Aware Inverse Reinforcement Learning with Introspective Reasoning), a novel alignment approach inspired by shadow models in membership inference attacks. Our approach consists of two main components: (1) construction of a balanced safety Chain-of-Draft (CoD) dataset for seven harmful categories using structured prompts that leverage the introspective reasoning capabilities of LLMs; and (2) training of category-specific reward models with Group Relative Policy Optimization (GRPO), dynamically tuning optimization to task difficulty at both the data and model levels. Comprehensive experiments across four harmlessness and four usefulness benchmarks demonstrate that HAIR achieves state-of-the-art performance, outperforming all baseline methods in safety while maintaining high levels of usefulness.
arxiv情報
著者 | Ruoxi Cheng,Haoxuan Ma,Weixin Wang |
発行日 | 2025-05-06 13:47:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google