It’s Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning

要約

思考連鎖 (COT) プロンプトは、大規模言語モデル (LLM) が正解に向けて推論するのに役立ちますが、不正解に向けた推論におけるその有効性はまだ解明されていません。
この排除プロセス (PoE) を COT と併用すると、自己一貫性、解釈可能性、および排除の医学的診断などのタスクを強化できます。
したがって、LLM が多肢選択式の質問で間違った選択肢を推論しなければならない COT を使用した PoE を提案します。
合計 4 つの常識的および科学的推論データセットに対して、GPT-3.5、LLaMA-2、および Falcon が COT を使用して PoE を実行する能力を評価します。
PoE の戦略は、常に正しい答えを選択する戦略を下回ることがわかります。
これらの戦略の一致度も、各戦略の自己一貫性よりも低くなります。
これらの問題をさらに研究するために、私たちはエラー分析を実施し、今後の作業への提案を行います。

要約(オリジナル)

Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This process of elimination (PoE), when used with COT, can enhance self-consistency, interpretability, and tasks such as medical diagnoses of exclusion. Thus, we propose PoE with COT, where LLMs must reason toward incorrect options on multiple-choice questions. We evaluate the ability of GPT-3.5, LLaMA-2, and Falcon to perform PoE with COT on a total of four commonsense and scientific reasoning datasets. We find that the strategy of PoE always underperforms the strategy of choosing the correct answer. The agreement of these strategies is also lower than the self-consistency of each strategy. To study these issues further, we conduct error analyses and give suggestions for future work.

arxiv情報

著者 Nishant Balepur,Shramay Palta,Rachel Rudinger
発行日 2024-02-19 16:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク