Annotation alignment: Comparing LLM and human annotations of conversational safety

要約

LLM は人間の安全に対する認識と一致していますか?
私たちは、ユーザーとチャットボットの会話の安全性に注釈を付ける際に、LLM と人間がどの程度同意するかという、注釈の調整を通じてこの問題を研究します。
私たちは最近の DICES データセット (Aroyo et al., 2023) を利用しています。このデータセットでは、350 の会話がそれぞれ 10 の人種、性別グループにわたる 112 人のアノテーターによって安全性について評価されています。
GPT-4 は、平均アノテーター評価と $r = 0.59$ のピアソン相関を達成しており、平均とアノテーターの相関の中央値 ($r=0.51$) よりも \textit{高い}です。
LLM がさまざまな人口統計グループとどの程度よく相関するかどうかを解明するには、より大規模なデータセットが必要であることを示します。
また、グループ内の相関関係にはかなりの特異なばらつきがあり、人種と性別が整合性の違いを完全には捉えていないことを示唆しています。
最後に、GPT-4 では、ある人口統計グループが別のグループよりも会話が危険であると判断するタイミングを予測できないことがわかりました。

要約(オリジナル)

Do LLMs align with human perceptions of safety? We study this question via annotation alignment, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, \textit{higher} than the median annotator’s correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether LLMs exhibit disparities in how well they correlate with different demographic groups. Also, there is substantial idiosyncratic variation in correlation within groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another.

arxiv情報

著者 Rajiv Movva,Pang Wei Koh,Emma Pierson
発行日 2024-10-07 17:13:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク