要約
最近の多くの研究で、大規模言語モデル (LLM) は優れた推論能力を実証しましたが、提案されている下流推論タスクの多くはパフォーマンスに関する評価に焦点を当てています。
2 つの基本的な疑問が残ります。1) 推論の品質はどの程度信頼できるか、2) モデルは信頼性の低い推論を検出できるか?
この論文では、モデル推論が予測をサポートしない自己矛盾 (Self-Contra) 推論を調査します。
1) に対処するために、4 つのデータセットにわたるセルフ コントラ率を評価し、セルフ コントラ推論のより詳細なカテゴリーを掘り下げます。
コンテキスト情報の理解や常識を伴う推論タスクを実行するとき、LLM が矛盾することがよくあることがわかりました。
重要なのは、高い精度は必ずしも低いセルフコントラ率に対応するとは限りません。
モデルは正しい答えを生成しているように見えますが、推論において近道を行ったり、文脈上の証拠をスキップしたりする可能性があり、その結果、推論が損なわれたセルフコントラの動作が表示されます。
2) に関しては、GPT-4 にセルフコントラ推論とより詳細な誤謬を特定する任務を与えます。
GPT-4 はセルフコントラ推論を効果的に検出するのに苦労しており、人間の判断と比較してパフォーマンスが著しく低いことが観察されています。
私たちの結果は、現在のLLMには信頼性の高い推論に必要な堅牢性が欠けていることを示しており、精度ベースの指標を超えた包括的な推論評価におけるベストプラクティスを確立することが緊急に必要であることを強調します。
要約(オリジナル)
In a plethora of recent work, large language models (LLMs) demonstrated impressive reasoning ability, but many proposed downstream reasoning tasks focus on performance-wise evaluation. Two fundamental questions persist: 1) how reliable is the quality of reasoning, and 2) can models detect unreliable reasoning? In this paper, we investigate self-contradictory (Self-Contra) reasoning, where the model reasoning does not support predictions. To address 1), we assess the Self-Contra rate across four datasets and delve into finer-grained categories of Self-Contra reasoning. We find that LLMs often contradict themselves when performing reasoning tasks that involve contextual information understanding or commonsense. Importantly, a higher accuracy does not necessarily correspond to a lower Self-Contra rate. The model may appear to generate correct answers but it may take shortcuts in reasoning or skip over contextual evidence, thereby displaying Self-Contra behaviors with compromised reasoning. As for 2), we task GPT-4 with identifying Self-Contra reasoning and finer-grained fallacies. We observe that GPT-4 struggles to effectively detect Self-Contra reasoning, with significantly low performance compared with human judgment. Our results indicate that the current LLMs lack robustness necessary for reliable reasoning and we emphasize the urgent need for establishing best practices in comprehensive reasoning evaluations beyond accuracy-based metrics.
arxiv情報
著者 | Ziyi Liu,Isabelle Lee,Yongkang Du,Soumya Sanyal,Jieyu Zhao |
発行日 | 2024-02-19 18:01:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google