要約
この研究では、大規模な言語モデルのレッド チームの安全性に関する現在のベスト プラクティスを改善する社会技術的フレームワークである STAR を紹介します。
STAR は 2 つの重要な貢献をします。人間のレッド チーム担当者向けにパラメーター化された指示を生成することで操縦性を強化し、リスク サーフェスのカバー範囲の向上につながります。
パラメーター化された命令により、コストを増加させることなく、モデルの障害に関するより詳細な洞察も得られます。
第 2 に、STAR は人口統計を照合して特定のグループに対する危害を評価することで信号品質を向上させ、その結果、より高感度のアノテーションが得られます。
STAR はさらに、調停という新しいステップを採用して、多様な視点を活用し、ラベルの信頼性を向上させ、不一致をノイズとしてではなく、信号品質への貴重な貢献として扱います。
要約(オリジナル)
This research introduces STAR, a sociotechnical framework that improves on current best practices for red teaming safety of large language models. STAR makes two key contributions: it enhances steerability by generating parameterised instructions for human red teamers, leading to improved coverage of the risk surface. Parameterised instructions also provide more detailed insights into model failures at no increased cost. Second, STAR improves signal quality by matching demographics to assess harms for specific groups, resulting in more sensitive annotations. STAR further employs a novel step of arbitration to leverage diverse viewpoints and improve label reliability, treating disagreement not as noise but as a valuable contribution to signal quality.
arxiv情報
著者 | Laura Weidinger,John Mellor,Bernat Guillen Pegueroles,Nahema Marchal,Ravin Kumar,Kristian Lum,Canfer Akbulut,Mark Diaz,Stevie Bergman,Mikel Rodriguez,Verena Rieser,William Isaac |
発行日 | 2024-08-06 09:17:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google