要約
人間によるラベル付けにおける意見の相違はいたるところに存在し、人間による判断分布 (HJD) に記録される可能性があります。
最近の研究では、説明は人間のラベルバリエーション (HLV) を理解するための貴重な情報を提供し、大規模言語モデル (LLM) は人間が提供した少数のラベルと説明のペアから HJD を近似できることが示されています。
しかし、ラベルごとに説明を集めるのはやはり時間がかかります。
この論文では、HJD を近似するための説明を生成する際に人間の代わりに LLM を使用できるかどうかを検討します。
具体的には、LLM をアノテーターとして使用して、いくつかの与えられた人間のラベルに対するモデルの説明を生成します。
私たちは、人間の判断分布を近似することを目的として、これらのラベルの説明を取得して組み合わせる方法をテストします。
さらに、結果として得られる人間の説明とモデルが生成した説明を比較し、自動説明と人間による説明の選択をテストします。
私たちの実験は、LLM 説明が NLI にとって有望であることを示しています。HJD を推定するために、人間のラベルが提供された場合、生成された説明は人間の説明と同等の結果をもたらします。
重要なのは、私たちの結果は、人間による説明を伴うデータセットから、i) それらが利用できないデータセット、および ii) 配布外の困難なテストセットまで一般化していることです。
要約(オリジナル)
Disagreement in human labeling is ubiquitous, and can be captured in human judgment distributions (HJDs). Recent research has shown that explanations provide valuable information for understanding human label variation (HLV) and large language models (LLMs) can approximate HJD from a few human-provided label-explanation pairs. However, collecting explanations for every label is still time-consuming. This paper examines whether LLMs can be used to replace humans in generating explanations for approximating HJD. Specifically, we use LLMs as annotators to generate model explanations for a few given human labels. We test ways to obtain and combine these label-explanations with the goal to approximate human judgment distribution. We further compare the resulting human with model-generated explanations, and test automatic and human explanation selection. Our experiments show that LLM explanations are promising for NLI: to estimate HJD, generated explanations yield comparable results to human’s when provided with human labels. Importantly, our results generalize from datasets with human explanations to i) datasets where they are not available and ii) challenging out-of-distribution test sets.
arxiv情報
著者 | Beiduo Chen,Siyao Peng,Anna Korhonen,Barbara Plank |
発行日 | 2024-12-18 15:24:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google