No Strong Feelings One Way or Another: Re-operationalizing Neutrality in Natural Language Inference

要約

自然言語推論 (NLI) は、言語モデルの推論推論機能を評価する際の基礎となるタスクです。
ただし、NLI で使用される標準の 3 方向分類スキームには、人間の自然な推論のニュアンスを捉えるモデルの能力を評価する際によく知られている欠点があります。
この論文では、現在の NLI データセットにおける中立ラベルの運用化は妥当性が低く、一貫性なく解釈されており、中立性の少なくとも 1 つの重要な意味がしばしば無視されていると主張します。
これらの欠点による悪影響が明らかになり、場合によってはアノテーション データセットが実際に下流タスクのパフォーマンスを低下させることになります。
アノテーターの意見の不一致に対処するアプローチを比較し、問題のある運用化に基づいてアノテーターの研究を設計する最近の NLI データセットの欠陥を特定します。
私たちの調査結果は、NLI のより洗練された評価フレームワークの必要性を浮き彫りにしており、NLP コミュニティでさらなる議論と行動を引き起こすことを期待しています。

要約(オリジナル)

Natural Language Inference (NLI) has been a cornerstone task in evaluating language models’ inferential reasoning capabilities. However, the standard three-way classification scheme used in NLI has well-known shortcomings in evaluating models’ ability to capture the nuances of natural human reasoning. In this paper, we argue that the operationalization of the neutral label in current NLI datasets has low validity, is interpreted inconsistently, and that at least one important sense of neutrality is often ignored. We uncover the detrimental impact of these shortcomings, which in some cases leads to annotation datasets that actually decrease performance on downstream tasks. We compare approaches of handling annotator disagreement and identify flaws in a recent NLI dataset that designs an annotator study based on a problematic operationalization. Our findings highlight the need for a more refined evaluation framework for NLI, and we hope to spark further discussion and action in the NLP community.

arxiv情報

著者 Animesh Nighojkar,Antonio Laverghetta Jr.,John Licato
発行日 2023-06-16 15:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク