ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation

要約

自由記述による説明の評価は、多面的かつ主観的で多大な労力を要する作業です。
大規模言語モデル (LLM) は、一貫性、スケーラビリティ、コスト効率の可能性があるため、魅力的な代替手段となります。
この研究では、3,500 件の自由テキスト説明と側面ごとの品質評価からなる新しいデータセットである ACORN を提示し、それを使用して LLM が説明をどのように評価するかについての洞察を得ることができます。
人間の評価者の 1 人を置き換えると、異なる設定や品質の側面にわたるアノテーター間の合意が維持される場合もありますが、低下することが多く、アノテーターの判断が人間の評価者と常に一致しているわけではないことがわかりました。
私たちは、LLM が生成した評価と、さまざまな品質側面にわたる多数決による人間の評価との相関関係を比較することで、この違いをさらに定量化しました。
最良のシステムを使用した場合、スピアマンの順位相関は 0.53 ~ 0.95 の範囲で、アスペクト全体の平均は 0.72 であり、適度に高いが不完全な整合性を示しています。
最後に、人間の評価者が不足している場合に追加の評価者として LLM を使用する代替案を検討し、人間のプールが限られている多数決のラベルと追加の評価者としての LLM との間の相関を、元のゴールド ラベルと比較して測定しました。
人間の評価者が 2 人だけの場合、GPT-4 は結果を改善しましたが、観察された他のすべてのケースでは、人間の評価者が 3 人以上の場合、LLM は中立から有害でした。
LLM インザループ評価の将来の改善をサポートするために、データセットを https://github.com/a-brassard/ACORN で公開します。

要約(オリジナル)

Evaluating free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to gain insights into how LLMs evaluate explanations. We observed that replacing one of the human ratings sometimes maintained, but more often lowered the inter-annotator agreement across different settings and quality aspects, suggesting that their judgments are not always consistent with human raters. We further quantified this difference by comparing the correlation between LLM-generated ratings with majority-voted human ratings across different quality aspects. With the best system, Spearman’s rank correlation ranged between 0.53 to 0.95, averaging 0.72 across aspects, indicating moderately high but imperfect alignment. Finally, we considered the alternative of using an LLM as an additional rater when human raters are scarce, and measured the correlation between majority-voted labels with a limited human pool and LLMs as an additional rater, compared to the original gold labels. While GPT-4 improved the outcome when there were only two human raters, in all other observed cases, LLMs were neutral to detrimental when there were three or more human raters. We publicly release the dataset to support future improvements in LLM-in-the-loop evaluation here: https://github.com/a-brassard/ACORN.

arxiv情報

著者 Ana Brassard,Benjamin Heinzerling,Keito Kudo,Keisuke Sakaguchi,Kentaro Inui
発行日 2024-05-08 05:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク