Automatic Model Selection with Large Language Models for Reasoning

要約

思考連鎖 (CoT) とプログラム支援言語モデル (PAL) は 2 つの異なる推論方法を表しており、それぞれに独自の長所があります。
CoT は自然言語を使用して柔軟性と解釈可能性を提供しますが、PAL はプログラミング言語を使用して、より構造化された厳密なロジックを生成します。
大規模言語モデル (LLM) を使用して動的に選択することで、両方の長所を組み合わせるモデル選択方法を導入します。
私たちの理論的分析はこの方法の実現可能性を強調しており、それは経験的結果によってさらに裏付けられています。
私たちが提案した手法は、Codex、ChatGPT、および GPT-4 を使用した 8 つの推論データセット全体で大幅なパフォーマンスの向上を示しています。
さらに、私たちの方法は自己一貫性を補完します。
統合すると、計算コストを大幅に削減しながらパフォーマンスをさらに向上させることができます。
さらに、GSM8K と SVAMP ではそれぞれ 96.8% と 93.7% の精度という新しい最先端の結果を達成しました。
コード、データ、プロンプトは https://github.com/XuZhao0/Model-Selection-Reasoning で入手できます。

要約(オリジナル)

Chain-of-Thought (CoT) and Program-Aided Language Models (PAL) represent two distinct reasoning methods, each with its own strengths. CoT employs natural language, offering flexibility and interpretability, while PAL utilizes programming language, yielding more structured and rigorous logic. We introduce a model selection method to combine the best of both worlds by employing a large language model (LLM) to dynamically select between them. Our theoretical analysis underscores the feasibility of this method, which is further corroborated by empirical results. Our proposed method demonstrates significant performance improvements across eight reasoning datasets with Codex, ChatGPT, and GPT-4. Additionally, our method is complementary to self-consistency; when integrated, it can further enhance performance while significantly reducing computation costs. Moreover, we achieve new state-of-the-art results on GSM8K and SVAMP, with respective accuracies of 96.8% and 93.7%. Our code, data and prompts are available at https://github.com/XuZhao0/Model-Selection-Reasoning

arxiv情報

著者 James Xu Zhao,Yuxi Xie,Kenji Kawaguchi,Junxian He,Michael Qizhe Xie
発行日 2023-10-23 14:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク