Ask One More Time: Self-Agreement Improves Reasoning of Language Models in (Almost) All Scenarios

要約

言語モデルと組み合わせた思考連鎖 (CoT) プロンプトは、複雑な推論タスクで有望な結果を達成しましたが、CoT プロンプトで使用される単純な貪欲なデコードは、通常、反復性と局所最適性を引き起こします。
この欠点に対処するために、アンサンブル最適化は、最終的な答えのアセンブリを取得するために複数の推論パスを取得しようとします。
しかし、現在のアンサンブル最適化手法は、単純に \textit{self-consistency} などのルールベースの後処理を採用するか、複数のタスク関連の人による注釈に基づいて追加のモデルをトレーニングして、複数の推論パスの中から最適なものを選択します。
入力質問の種類が不明であるか、推論パスの回答形式が不明な場合、現実的な設定に一般化できません。
それらの制限を回避するために、入力質問の種類と推論パスの回答形式が既知または未知のほぼすべてのシナリオに適用される一般化可能なアンサンブル最適化手法である \textbf{self-agreement} を提案します。
自己合意は、まず言語モデルのデコーダからサンプリングして、\textit{多様な}推論パスのセットを生成し、その後、言語モデルに \textit{もう一度}、最も \textit{同意された}答えを選択することによって最適な答えを決定するように促します。
サンプリングされた推論パスの中から。
自己合意は、6 つの公開推論ベンチマークと優れた一般化能力で優れたパフォーマンスを同時に達成します。

要約(オリジナル)

Although chain-of-thought (CoT) prompting combined with language models has achieved encouraging results on complex reasoning tasks, the naive greedy decoding used in CoT prompting usually causes the repetitiveness and local optimality. To address this shortcoming, ensemble-optimization tries to obtain multiple reasoning paths to get the final answer assembly. However, current ensemble-optimization methods either simply employ rule-based post-processing such as \textit{self-consistency}, or train an additional model based on several task-related human annotations to select the best one among multiple reasoning paths, yet fail to generalize to realistic settings where the type of input questions is unknown or the answer format of reasoning paths is unknown. To avoid their limitations, we propose \textbf{self-agreement}, a generalizable ensemble-optimization method applying in almost all scenarios where the type of input questions and the answer format of reasoning paths may be known or unknown. Self-agreement firstly samples from language model’s decoder to generate a \textit{diverse} set of reasoning paths, and subsequently prompts the language model \textit{one more time} to determine the optimal answer by selecting the most \textit{agreed} answer among the sampled reasoning paths. Self-agreement simultaneously achieves remarkable performance on six public reasoning benchmarks and superior generalization capabilities.

arxiv情報

著者 Lei Lin,Jiayi Fu,Pengli Liu,Junchen Wan,Fuzheng Zhang,Zhongyuan Wang,Di Zhang,Kun Gai
発行日 2023-11-14 13:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク