要約
Commonsense データセットは、主にクラウドソースによる人間によるアノテーションを通じて、自然言語処理で十分に開発されています。
ただし、常識的推論のベンチマークが本物であるかどうかについては議論があります。
具体的には、一部の常識的なベンチマークのインスタンスの大部分は常識的な知識に関係しません。
この問題は、評価されたモデルの真の常識的推論能力の測定を損なう可能性があります。
また、この問題は、他の種類の知識とは区別される、常識的な知識という曖昧な概念に起因していることも示唆されています。
上記の主張すべてを解明するために、この研究では、常識知識の既存の定義を調査し、概念を定義するための 3 つのフレームワークに基礎を置き、それらを複数のフレームワークで統一された常識知識の定義 (いわゆる統合定義) に統合します。
次に、アノテーションの統合定義を使用し、CommonsenseQA および CommonsenseQA 2.0 データセットで実験を行い、上記の主張を検証します。
私たちの調査では、2 つのデータセットには非常識知識インスタンスの大部分が存在し、これら 2 つのサブセットでは大きなパフォーマンス ギャップが存在し、常識知識インスタンスでは大規模言語モデル (LLM) のパフォーマンスが劣ることが示されています。
要約(オリジナル)
Commonsense datasets have been well developed in Natural Language Processing, mainly through crowdsource human annotation. However, there are debates on the genuineness of commonsense reasoning benchmarks. In specific, a significant portion of instances in some commonsense benchmarks do not concern commonsense knowledge. That problem would undermine the measurement of the true commonsense reasoning ability of evaluated models. It is also suggested that the problem originated from a blurry concept of commonsense knowledge, as distinguished from other types of knowledge. To demystify all of the above claims, in this study, we survey existing definitions of commonsense knowledge, ground into the three frameworks for defining concepts, and consolidate them into a multi-framework unified definition of commonsense knowledge (so-called consolidated definition). We then use the consolidated definition for annotations and experiments on the CommonsenseQA and CommonsenseQA 2.0 datasets to examine the above claims. Our study shows that there exists a large portion of non-commonsense-knowledge instances in the two datasets, and a large performance gap on these two subsets where Large Language Models (LLMs) perform worse on commonsense-knowledge instances.
arxiv情報
著者 | Quyet V. Do,Junze Li,Tung-Duong Vuong,Zhaowei Wang,Yangqiu Song,Xiaojuan Ma |
発行日 | 2024-11-06 14:54:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google