要約
タイトル:セルフエバリュエーションガイドデコーディングによる推論の強化
要約:
– 大規模言語モデル(LLM)に、細かい自己評価を組み込むことで、多段階の推論の推敲を行うことができる。
– 自己評価によるガイダンスを統合した、効果的なプロンプティングアプローチを提案する。
– 良く校正されている自動基準により、推論探索空間を探索し、高品質な最終予測を生成する効率的な探索を可能にする。
– 自己評価によるガイド付きの確率的なビームサーチを使用して、推論チェーンの生成における品質と多様性のトレードオフをバランスすることで、多数決に適応し、GSM8K、AQuA、StrategyQAベンチマークにおいて、それぞれ対応するCodex-backbonedベースラインを6.34%、9.56%、5.46%上回るfew-shot精度を達成する。
– 分解推論の分析からは、論理的な失敗点を特定し、高い一貫性と堅牢性につながることがわかる。
– コードは、https://github.com/YuxiXie/SelfEval-Guided-Decodingで公開されている。
要約(オリジナル)
We endow Large Language Models (LLMs) with fine-grained self-evaluation to refine multi-step reasoning inference. We propose an effective prompting approach that integrates self-evaluation guidance through stochastic beam search. Our approach explores the reasoning search space using a well-calibrated automatic criterion. This enables an efficient search to produce higher-quality final predictions. With the self-evaluation guided stochastic beam search, we also balance the quality-diversity trade-off in the generation of reasoning chains. This allows our approach to adapt well with majority voting and surpass the corresponding Codex-backboned baselines by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQuA, and StrategyQA benchmarks, respectively, in few-shot accuracy. Analysis of our decompositional reasoning finds it pinpoints logic failures and leads to higher consistency and robustness. Our code is publicly available at https://github.com/YuxiXie/SelfEval-Guided-Decoding.
arxiv情報
著者 | Yuxi Xie,Kenji Kawaguchi,Yiran Zhao,Xu Zhao,Min-Yen Kan,Junxian He,Qizhe Xie |
発行日 | 2023-05-02 05:42:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI