Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset

要約

大規模な言語モデル(LLMS)の害を軽減するために、人間のフィードバック(LHF)からの学習を使用して、LLMSを使用して、有害性が低く、より有用であることを意図した出力に向けます。
実際にLHFが広く採用されているにもかかわらず、このフィードバックの質と安全緩和手法としてのその有効性は不明のままです。
この研究では、人類による広く使用されている役に立つ無害(HH)データセットを監査することにより、これらの問題に対処します。
私たちの作業には、次のものが含まれます。(1)手動評価と自動化された評価の両方によるデータセットのコンテンツの徹底的な調査。
(2)モデルの安全性に対するデータセットの影響を示す実験。
(3)このデータセットを引用している100の最も影響力のある論文の分析。
監査を通じて、HHデータセットで特定された概念化の失敗と品質の問題が、人口統計グループ全体で異なる安全行動につながることにより、追加の害を生み出すことができる方法を紹介します。
私たちの調査結果は、LLMSにおける安全緩和に対するより微妙でコンテキストに敏感なアプローチの必要性を強調しています。

要約(オリジナル)

In an effort to mitigate the harms of large language models (LLMs), learning from human feedback (LHF) has been used to steer LLMs towards outputs that are intended to be both less harmful and more helpful. Despite the widespread adoption of LHF in practice, the quality of this feedback and its effectiveness as a safety mitigation technique remain unclear. This study addresses these issues by auditing the widely-used Helpful and Harmless (HH) dataset by Anthropic. Our work includes: (1) a thorough investigation of the dataset’s content through both manual and automated evaluation; (2) experiments demonstrating the dataset’s impact on models’ safety; and (3) an analysis of the 100 most influential papers citing this dataset. Through our audit, we showcase how conceptualization failures and quality issues identified in the HH dataset can create additional harms by leading to disparate safety behaviors across demographic groups. Our findings highlight the need for more nuanced, context-sensitive approaches to safety mitigation in LLMs.

arxiv情報

著者 Khaoula Chehbouni,Jonathan Colaço Carr,Yash More,Jackie CK Cheung,Golnoosh Farnadi
発行日 2025-04-29 13:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク