Using Natural Language Explanations to Rescale Human Judgments

要約

大規模言語モデル (LLM) の台頭により、人間によるラベル付けされた高品質のデータ、特に人間によるフィードバックや評価などのプロセスに対する重要なニーズが生じています。
一般的な方法は、人間の判断ではなく、コンセンサス アノテーションを介してデータにラベルを付けることです。
ただし、主観的なタスクに対するアノテーターの判断はさまざまな点で異なる可能性があります。それらは、例に関するさまざまな定性的判断を反映している可能性があり、さまざまな方法でラベル付けスキームにマッピングされている可能性があります。
我々は、これらのニュアンスが自然言語の説明によって捉えられることを示し、LLM を使用して序数の注釈と説明を再スケーリングする方法を提案します。
具体的には、アノテーターのリッカート評価と対応する説明を LLM に入力し、採点ルーブリックに固定された数値スコアを生成するように促します。
これらのスコアは、例に対するアノテーターの基礎的な評価を反映する必要があります。
ルーブリックは、注釈を付けた後に設計または変更することができ、元のエラー分類法が考案されたときには知られていなかった可能性のある区別を含めることができます。
私たちは、LLM が人間に近いパフォーマンスを達成する、ドキュメントに基づいた質問応答タスクの評価システムの出力のコンテキストで手法を検討します。
私たちの方法は、一致に影響を与えることなく生の判定を再スケールし、同じスコアリングルーブリックに基づいた人間の判定にスコアを近づけます。

要約(オリジナル)

The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over human judgments. However, annotators’ judgments for subjective tasks can differ in many ways: they may reflect different qualitative judgments about an example, and they may be mapped to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators’ Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators’ underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric.

arxiv情報

著者 Manya Wadhwa,Jifan Chen,Junyi Jessy Li,Greg Durrett
発行日 2024-07-10 15:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク