要約
Winograd Schema Challenge (WSC) は、機械の理解を評価するための著名なベンチマークとして機能します。
大規模言語モデル (LLM) は WSC の質問に答えるのに優れていますが、そのような質問を生成する能力はまだあまり研究されていません。
この研究では、WSC インスタンスの生成を強化する新しいプロンプト手法である Tree-of-Experts (ToE) を提案します (有効なケースは 50%、最近の手法では 10%)。
このアプローチを使用して、LLM で生成された 3,026 文からなる新しいデータセットである WSC+ を紹介します。
特に、新しい「あいまい」および「不快な」カテゴリを組み込むことで WSC フレームワークを拡張し、モデルの過信と偏見に対するより深い洞察を提供します。
私たちの分析では、生成と評価の一貫性の微妙な違いが明らかになり、LLM が独自に生成した質問の評価において、他のモデルによって作成された質問と比較した場合に必ずしも優れているわけではないことが示唆されています。
WSC+ では、最高パフォーマンスの LLM である GPT-4 は 68.7% の精度を達成し、人間のベンチマークである 95.1% を大幅に下回ります。
要約(オリジナル)
The Winograd Schema Challenge (WSC) serves as a prominent benchmark for evaluating machine understanding. While Large Language Models (LLMs) excel at answering WSC questions, their ability to generate such questions remains less explored. In this work, we propose Tree-of-Experts (ToE), a novel prompting method which enhances the generation of WSC instances (50% valid cases vs. 10% in recent methods). Using this approach, we introduce WSC+, a novel dataset comprising 3,026 LLM-generated sentences. Notably, we extend the WSC framework by incorporating new ‘ambiguous’ and ‘offensive’ categories, providing a deeper insight into model overconfidence and bias. Our analysis reveals nuances in generation-evaluation consistency, suggesting that LLMs may not always outperform in evaluating their own generated questions when compared to those crafted by other models. On WSC+, GPT-4, the top-performing LLM, achieves an accuracy of 68.7%, significantly below the human benchmark of 95.1%.
arxiv情報
著者 | Pardis Sadat Zahraei,Ali Emami |
発行日 | 2024-01-31 09:49:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google