要約
言語モデル (LM) が進歩するにつれて、融資や住宅適格性の決定など、一か八かの社会的決定に言語モデルを適用することへの関心が高まっています。
しかし、そのような状況での差別の可能性は倫理的な懸念を引き起こし、これらのリスクを評価するためのより良い方法の必要性を動機付けています。
LM がまだ導入されていない仮想的なユースケースを含む、幅広いユースケースにおける LM の潜在的な差別的影響を積極的に評価する方法を紹介します。
具体的には、LM を使用して、社会全体の 70 の多様な意思決定シナリオに及ぶ、意思決定者が LM に入力できる幅広い潜在的なプロンプトを生成し、各プロンプトの人口統計情報を体系的に変更します。
この方法論を適用すると、介入が適用されない場合の選択された設定におけるクロード 2.0 モデルにおける肯定的および否定的両方の差別のパターンが明らかになります。
私たちは、研究している高リスクのユースケースで自動決定を行うための言語モデルの使用を支持したり許可したりしませんが、注意深く迅速なエンジニアリングを通じてポジティブな差別とネガティブな差別の両方を大幅に減少させる技術を実証し、ユースケースでより安全に導入するための道筋を提供します。
それらが適切である可能性がある場合。
私たちの取り組みにより、言語モデルの機能とアプリケーションが拡大し続ける中で、開発者や政策立案者が差別を予測、測定し、対処できるようになります。
https://huggingface.co/datasets/Anthropic/discrim-eval でデータセットとプロンプトをリリースします。
要約(オリジナル)
As language models (LMs) advance, interest is growing in applying them to high-stakes societal decisions, such as determining financing or housing eligibility. However, their potential for discrimination in such contexts raises ethical concerns, motivating the need for better methods to evaluate these risks. We present a method for proactively evaluating the potential discriminatory impact of LMs in a wide range of use cases, including hypothetical use cases where they have not yet been deployed. Specifically, we use an LM to generate a wide array of potential prompts that decision-makers may input into an LM, spanning 70 diverse decision scenarios across society, and systematically vary the demographic information in each prompt. Applying this methodology reveals patterns of both positive and negative discrimination in the Claude 2.0 model in select settings when no interventions are applied. While we do not endorse or permit the use of language models to make automated decisions for the high-risk use cases we study, we demonstrate techniques to significantly decrease both positive and negative discrimination through careful prompt engineering, providing pathways toward safer deployment in use cases where they may be appropriate. Our work enables developers and policymakers to anticipate, measure, and address discrimination as language model capabilities and applications continue to expand. We release our dataset and prompts at https://huggingface.co/datasets/Anthropic/discrim-eval
arxiv情報
著者 | Alex Tamkin,Amanda Askell,Liane Lovitt,Esin Durmus,Nicholas Joseph,Shauna Kravec,Karina Nguyen,Jared Kaplan,Deep Ganguli |
発行日 | 2023-12-06 18:53:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google