Using Natural Language Explanations to Rescale Human Judgments


大規模言語モデル (LLM) の台頭により、人間によるラベル付けされた高品質のデータ、特に人間によるフィードバックや評価などのプロセスに対する重要なニーズが生じています。
一般的な方法は、クラウドワーカーの判断ではなく、コンセンサス アノテーションを介してデータにラベルを付けることです。
我々は、これらのニュアンスが自然言語の説明によって捉えられることを示し、LLM を使用して序数の注釈と説明を再スケーリングする方法を提案します。
具体的には、アノテーターのリッカート評価と対応する説明を LLM に入力し、採点ルーブリックに固定された数値スコアを生成するように促します。
私たちは、LLM が人間に近いパフォーマンスを達成する、ドキュメントに基づいた質問応答タスクの評価システム出力のコンテキストで手法を検討します。


The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over crowdworker judgments. However, annotators’ judgments for subjective tasks can differ in many ways: they may have different qualitative judgments about an example, and they may map those to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators’ Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators’ underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric.


著者 Manya Wadhwa,Jifan Chen,Junyi Jessy Li,Greg Durrett
発行日 2023-11-14 18:30:28+00:00
