It’s Not Easy Being Wrong: Evaluating Process of Elimination Reasoning in Large Language Models

要約

思考連鎖 (COT) プロンプトは、大規模言語モデル (LLM) が正解に向けて推論するのに役立ちますが、不正解に向けた推論におけるその有効性はまだ解明されていません。
この消去法 (PoE) 戦略を COT と併用すると、除外の医療診断などのタスクの解釈可能性が向上する可能性があります。
したがって、私たちは COT を使用した PoE を提案します。これは、LLM が多肢選択式の質問で間違った選択肢を推論しなければならない新しいタスクです。
GPT-3.5、LLaMA-2、および Falcon が、2 択の常識的および科学的推論のデータセットに対して COT を使用して PoE を実行する能力を評価します。
PoE は、正しい答えを直接選択する場合、一貫してパフォーマンスを下回ることがわかります。
これらの戦略の一致度も、各戦略の自己一貫性よりも低くなります。
これらの問題をさらに調査するために、エラー分析を実施し、今後の作業への提案を行います。

要約(オリジナル)

Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This strategy of process of elimination (PoE), when used with COT, has the potential to enhance interpretability in tasks like medical diagnoses of exclusion. Thus, we propose PoE with COT, a new task where LLMs must reason toward incorrect options on multiple-choice questions. We evaluate the ability of GPT-3.5, LLaMA-2, and Falcon to perform PoE with COT on 2-choice commonsense and scientific reasoning datasets. We show that PoE consistently underperforms directly choosing the correct answer. The agreement of these strategies is also lower than the self-consistency of each strategy. To study these issues further, we conduct an error analysis and give suggestions for future work.

arxiv情報

著者 Nishant Balepur,Shramay Palta,Rachel Rudinger
発行日 2023-11-13 18:18:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク