Are Large Language Models Reliable Argument Quality Annotators?

要約

引数の質を評価することは、引数マイニングを活用するシステムにとって重要な側面です。
ただし、通常、アノテーターのドメイン固有の専門知識が必要となるため、引数の品質に関して信頼性が高く一貫したアノテーションを取得することは困難です。
専門家の間でも、議論の質の評価は、この作業に固有の主観性があるため、しばしば一貫性がありません。
この論文では、最先端の大規模言語モデル (LLM) を引数品質アノテーターのプロキシとして使用する可能性を研究します。
この点における LLM の能力を評価するために、議論の質の次元の確立された分類に基づいて、モデル、人間の専門家、および人間の初心者アノテーターの間の一致を分析します。
私たちの調査結果は、LLM が一貫したアノテーションを生成でき、ほとんどの品質側面において人間の専門家との一致度が中程度に高いことを強調しています。
さらに、追加のアノテーターとして LLM を使用すると、アノテーター間の一致が大幅に改善されることを示します。
これらの結果は、LLM が自動議論の質評価のための貴重なツールとして機能し、それによって大規模な議論データセットの評価を合理化し、加速できることを示唆しています。

要約(オリジナル)

Evaluating the quality of arguments is a crucial aspect of any system leveraging argument mining. However, it is a challenge to obtain reliable and consistent annotations regarding argument quality, as this usually requires domain-specific expertise of the annotators. Even among experts, the assessment of argument quality is often inconsistent due to the inherent subjectivity of this task. In this paper, we study the potential of using state-of-the-art large language models (LLMs) as proxies for argument quality annotators. To assess the capability of LLMs in this regard, we analyze the agreement between model, human expert, and human novice annotators based on an established taxonomy of argument quality dimensions. Our findings highlight that LLMs can produce consistent annotations, with a moderately high agreement with human experts across most of the quality dimensions. Moreover, we show that using LLMs as additional annotators can significantly improve the agreement between annotators. These results suggest that LLMs can serve as a valuable tool for automated argument quality assessment, thus streamlining and accelerating the evaluation of large argument datasets.

arxiv情報

著者 Nailia Mirzakhmedova,Marcel Gohsen,Chia Hao Chang,Benno Stein
発行日 2024-04-15 11:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET パーマリンク