要約
大規模言語モデル (LLM) は、言語の理解と人間レベルのテキストの生成に優れています。
ただし、教師ありトレーニングと人間による調整を行ったとしても、これらの LLM は敵対的攻撃の影響を受けやすく、悪意のあるユーザーがモデルに望ましくないテキストの生成を促す可能性があります。
また、LLM は本質的に、相互作用中にさまざまな有害な影響を引き起こす可能性のある潜在的なバイアスをエンコードします。
バイアス評価指標には標準やコンセンサスが欠如しており、既存の手法は多くの場合、高価で労働集約的な人間が作成したテンプレートやアノテーションに依存しています。
この研究では、ターゲット LLM から偏った応答を引き出すために、敵対的なプロンプトを自動的に作成するようにモデルをトレーニングします。
我々は、LLM ベースのバイアス評価指標を提示し、いくつかの既存の自動評価手法と指標も分析します。
私たちはモデル応答のさまざまなニュアンスを分析し、モデルファミリーの長所と短所を特定し、評価方法が不足している部分を評価します。
これらの指標を人間の評価と比較し、LLM-as-a-Judge の指標が応答生成におけるバイアスに関する人間の判断と一致していることを検証します。
要約(オリジナル)
Large Language Models (LLMs) have excelled at language understanding and generating human-level text. However, even with supervised training and human alignment, these LLMs are susceptible to adversarial attacks where malicious users can prompt the model to generate undesirable text. LLMs also inherently encode potential biases that can cause various harmful effects during interactions. Bias evaluation metrics lack standards as well as consensus and existing methods often rely on human-generated templates and annotations which are expensive and labor intensive. In this work, we train models to automatically create adversarial prompts to elicit biased responses from target LLMs. We present LLM- based bias evaluation metrics and also analyze several existing automatic evaluation methods and metrics. We analyze the various nuances of model responses, identify the strengths and weaknesses of model families, and assess where evaluation methods fall short. We compare these metrics to human evaluation and validate that the LLM-as-a-Judge metric aligns with human judgement on bias in response generation.
arxiv情報
| 著者 | Shachi H Kumar,Saurav Sahay,Sahisnu Mazumder,Eda Okur,Ramesh Manuvinakurike,Nicole Beckage,Hsuan Su,Hung-yi Lee,Lama Nachman |
| 発行日 | 2024-08-07 17:11:34+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google