When is the consistent prediction likely to be a correct prediction?

要約

自己一貫性 (Wang et al., 2023) は、大規模言語モデル (LLM) を通じて得られる最も一貫した答えが正しい可能性が高いことを示唆しています。
この論文では、この議論に異議を唱え、微妙な修正を提案します。
私たちの観察によれば、単にすべての出力にわたって最も一貫した答えではなく、より多くの計算を通じて導き出された一貫した答え、つまりより長い推論テキストの方が正しい可能性が高いことが示されています。
これは主に、LLM が長い応答を生成しながら、カスタム プロンプトなしで思考連鎖 (CoT) スタイルの推論を自律的に生成でき、より正確で一貫した予測につながることが実証されたためです。
ゼロショット設定では、Mixtral-8x7B モデルを複数回サンプリングし、より長い応答を考慮することにより、GSM8K および MultiArith データセットでのゼロショット CoT プロンプトを通じて得られる自己無矛盾性パフォーマンスの 86% を達成します。
最後に、LLM がより長い応答を生成する確率は非常に低いことを実証し、出力長に条件を付けた復号戦略の必要性を強調します。

要約(オリジナル)

Self-consistency (Wang et al., 2023) suggests that the most consistent answer obtained through large language models (LLMs) is more likely to be correct. In this paper, we challenge this argument and propose a nuanced correction. Our observations indicate that consistent answers derived through more computation i.e. longer reasoning texts, rather than simply the most consistent answer across all outputs, are more likely to be correct. This is predominantly because we demonstrate that LLMs can autonomously produce chain-of-thought (CoT) style reasoning with no custom prompts merely while generating longer responses, which lead to consistent predictions that are more accurate. In the zero-shot setting, by sampling Mixtral-8x7B model multiple times and considering longer responses, we achieve 86% of its self-consistency performance obtained through zero-shot CoT prompting on the GSM8K and MultiArith datasets. Finally, we demonstrate that the probability of LLMs generating a longer response is quite low, highlighting the need for decoding strategies conditioned on output length.

arxiv情報

著者 Alex Nguyen,Dheeraj Mekala,Chengyu Dong,Jingbo Shang
発行日 2024-07-08 09:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク