要約
LLM は人間の安全性の認識とどの程度一致しますか?
私たちは、ユーザーとチャットボットの会話の安全性に注釈を付ける際に、LLM と人間がどの程度同意するかという *注釈の調整* を通じてこの質問を研究します。
私たちは最近の DICES データセット (Aroyo et al., 2023) を利用しています。このデータセットでは、350 の会話がそれぞれ 10 の人種、性別グループにわたる 112 人のアノテーターによって安全性について評価されています。
GPT-4 は、アノテーターの平均評価とのピアソン相関 $r = 0.59$ を達成し、アノテーターの平均と平均の相関 ($r=0.51$) の中央値よりも高くなります。
GPT-4 が人口統計グループとどの程度よく相関するかどうかを解明するには、より大規模なデータセットが必要であることを示します。
また、「グループ内」の相関関係にはかなりの特異なばらつきがあり、人種と性別が整合性の違いを完全に捉えていないことを示唆しています。
最後に、GPT-4 では、ある人口統計グループが別のグループよりも会話が危険であると判断するタイミングを予測できないことがわかりました。
要約(オリジナル)
To what extent to do LLMs align with human perceptions of safety? We study this question via *annotation alignment*, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, higher than the median annotator’s correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether GPT-4 exhibits disparities in how well it correlates with demographic groups. Also, there is substantial idiosyncratic variation in correlation *within* groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another.
arxiv情報
著者 | Rajiv Movva,Pang Wei Koh,Emma Pierson |
発行日 | 2024-06-10 15:30:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google