Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

要約

わずかな安全性の違いを持つ反応を区別する報酬モデルの成功は、有害な反応と無害な反応のきめ細かいニュアンスを捉える必要がある高品質の選好データセットに大きく依存します。
このため、ある応答が別の応答と比較してどの程度無害であるかを正確に定量化する、選好マージンを含むデータセットを開発する必要性が生じます。
この論文では、マージンを強化した嗜好データセットの開発を促進するための効果的でコスト効率の高いフレームワークを提案する第一歩を踏み出します。
私たちのフレームワークである Legend は、表現エンジニアリングを利用して嗜好データセットに注釈を付けます。
これは、安全性を表す LLM の埋め込み空間内に特定の方向を構築します。
この安全な方向を利用することで、Legend はこの方向に沿ったペアの応答の意味論的な距離を利用して、マージンに自動的に注釈を付けることができます。
私たちは、LLM の報酬モデリングと無害な調整の両方における有効性を実験的に実証しています。
Legend は、追加のトレーニングを必要とせず、推論時間のみを必要とする効率性でも際立っています。
この効率により実装と拡張性が容易になり、Legend は LLM と安全な会話を調整する実際のアプリケーションにとって特に価値があります。

要約(オリジナル)

The success of the reward model in distinguishing between responses with subtle safety differences depends critically on the high-quality preference dataset, which should capture the fine-grained nuances of harmful and harmless responses. This motivates the need to develop a dataset involving preference margins, which accurately quantify how harmless one response is compared to another. In this paper, we take the first step to propose an effective and cost-efficient framework to promote the margin-enhanced preference dataset development. Our framework, Legend, Leverages representation engineering to annotate preference datasets. It constructs the specific direction within the LLM’s embedding space that represents safety. By leveraging this safety direction, Legend can then leverage the semantic distances of paired responses along this direction to annotate margins automatically. We experimentally demonstrate our effectiveness in both reward modeling and harmless alignment for LLMs. Legend also stands out for its efficiency, requiring only the inference time rather than additional training. This efficiency allows for easier implementation and scalability, making Legend particularly valuable for practical applications in aligning LLMs with safe conversations.

arxiv情報

著者 Duanyu Feng,Bowen Qin,Chen Huang,Youcheng Huang,Zheng Zhang,Wenqiang Lei
発行日 2024-06-12 12:06:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク