An Empirical Analysis on Large Language Models in Debate Evaluation

要約

この研究では、議論の評価の文脈において、GPT-3.5 や GPT-4 などの高度な大規模言語モデル (LLM) の機能と固有のバイアスを調査します。
私たちは、LLM のパフォーマンスが人間を超え、議論の評価において広範なデータセットに基づいて微調整された最先端の手法のパフォーマンスを上回っていることを発見しました。
さらに、評価判断に影響を与える可能性のある、位置バイアス、語彙バイアス、順序バイアスなど、LLM に存在するバイアスを調査および分析します。
私たちの調査結果は、GPT-3.5 と GPT-4 の両方で、提示された 2 番目の応答候補への一貫した偏りを明らかにしており、これはプロンプト設計に起因します。
また、GPT-3.5 と GPT-4 の両方で、特にラベル セットに数値や順序などの意味合いが含まれる場合に語彙の偏りがあることも明らかにし、プロンプト デザインにおけるラベル言語化ツールの慎重な選択の重要な必要性を強調しています。
さらに、私たちの分析は、両方のモデルが議論の結論側を勝者として支持する傾向を示しており、議論の終了バイアスを示唆しています。

要約(オリジナル)

In this study, we investigate the capabilities and inherent biases of advanced large language models (LLMs) such as GPT-3.5 and GPT-4 in the context of debate evaluation. We discover that LLM’s performance exceeds humans and surpasses the performance of state-of-the-art methods fine-tuned on extensive datasets in debate evaluation. We additionally explore and analyze biases present in LLMs, including positional bias, lexical bias, order bias, which may affect their evaluative judgments. Our findings reveal a consistent bias in both GPT-3.5 and GPT-4 towards the second candidate response presented, attributed to prompt design. We also uncover lexical biases in both GPT-3.5 and GPT-4, especially when label sets carry connotations such as numerical or sequential, highlighting the critical need for careful label verbalizer selection in prompt design. Additionally, our analysis indicates a tendency of both models to favor the debate’s concluding side as the winner, suggesting an end-of-discussion bias.

arxiv情報

著者 Xinyi Liu,Pinxin Liu,Hangfeng He
発行日 2024-06-04 14:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク