ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation

要約

フリーテキストの説明の質を評価することは、多面的で主観的、かつ手間のかかる作業である。大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の可能性から、魅力的な代替手段を提示する。本研究では、3,500のフリーテキストの説明とアスペクトごとの品質評価からなる新しいデータセットACORNを提示し、それを用いてLLMが説明をどのように評価するかを評価する。我々は、より大きなモデルが、注釈者間の一致を維持または増加させるラベルを出力することを観察し、それが人間の評価者間の予想される分散の範囲内であることを示唆した。しかし、多数決による人間の評価との相関は、異なる品質側面で変化し、LLMが完全な代替物ではないことを示している。さらに、LLMを少人数の人間評価者の補足として使用することで、元の多数決ラベルとの相関が改善するケースもあった。しかし、その効果は人間の評価者が少ない場合に限られ、追加的な人間の評価者はすべての場合においてより顕著な効果をもたらした。全体として、我々はLLMを人間の評価者の完全な代替として使用することは勧めないが、人間の関与を目標とした構成で使用することを推奨する。データはこちらで入手可能: https://github.com/a-brassard/ACORN

要約(オリジナル)

Evaluating the quality of free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to evaluate how LLMs rate explanations. We observed that larger models outputted labels that maintained or increased the inter-annotator agreement, suggesting that they are within the expected variance between human raters. However, their correlation with majority-voted human ratings varied across different quality aspects, indicating that they are not a complete replacement. In turn, using LLMs as a supplement to a smaller group of human raters in some cases improved the correlation with the original majority labels. However, the effect was limited to cases where human raters were scarce, and an additional human rater had a more pronounced effect in all cases. Overall, we recommend against using LLMs as a complete replacement for human raters but encourage using them in configurations that end with targeted human involvement. Data available here: https://github.com/a-brassard/ACORN

arxiv情報

著者 Ana Brassard,Benjamin Heinzerling,Keito Kudo,Keisuke Sakaguchi,Kentaro Inui
発行日 2024-09-02 02:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク