LLMs’ Classification Performance is Overclaimed

要約

AIや人間が解くように設計された多くの分類タスクでは、一般的にデフォルトでラベル空間内にゴールドラベルが含まれ、しばしば「次のうちどれが正しいか」として出題される。この標準的な設定は、伝統的に、日常的な分類タスクにおける高度なAI、特にトップクラスの性能を持つ大規模言語モデル(LLM)の強力な性能を際立たせてきた。しかし、ゴールド・ラベルをラベル空間から意図的に除外した場合、LLMは利用可能なラベル候補から選択しようとすることが明らかになる。これは極めて重要な問題を提起する:LLMは本当に分類タスクの本質を理解する知能を発揮するのだろうか? 本研究では、代表的な分類タスクにおいて、クローズドソースとオープンソースのLLMを評価し、LLMがタスクの期待される理解力を発揮できないために、LLMの認識される性能が誇張されていることを論じる。i) 我々の知る限り、これは金ラベルがない場合の分類タスクにおけるLLMの限界を明らかにした最初の研究である。このタスクをClassify-w/o-Goldと定義し、LLMの新しいテストベッドとして提案する。 ii) Classify-w/o-Goldを評価するために、2つの既存の分類タスクと1つの新しいタスクからなるベンチマークKnow-Noを導入する。

要約(オリジナル)

In many classification tasks designed for AI or human to solve, gold labels are typically included within the label space by default, often posed as ‘which of the following is correct?’ This standard setup has traditionally highlighted the strong performance of advanced AI, particularly top-performing Large Language Models (LLMs), in routine classification tasks. However, when the gold label is intentionally excluded from the label space, it becomes evident that LLMs still attempt to select from the available label candidates, even when none are correct. This raises a pivotal question: Do LLMs truly demonstrate their intelligence in understanding the essence of classification tasks? In this study, we evaluate both closed-source and open-source LLMs across representative classification tasks, arguing that the perceived performance of LLMs is overstated due to their inability to exhibit the expected comprehension of the task. This paper makes a threefold contribution: i) To our knowledge, this is the first work to identify the limitations of LLMs in classification tasks when gold labels are absent. We define this task as Classify-w/o-Gold and propose it as a new testbed for LLMs. ii) We introduce a benchmark, Know-No, comprising two existing classification tasks and one new task, to evaluate Classify-w/o-Gold. iii) This work defines and advocates for a new evaluation metric, OmniAccuracy, which assesses LLMs’ performance in classification tasks both when gold labels are present and absent.

arxiv情報

著者 Hanzi Xu,Renze Lou,Jiangshu Du,Vahid Mahzoon,Elmira Talebianaraki,Zhuoan Zhou,Elizabeth Garrison,Slobodan Vucetic,Wenpeng Yin
発行日 2024-07-03 13:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク