要約
思考プログラム (PoT) は、推論プロセスにおける論理計算の精度を保証する、実行可能な中間ステップを特徴とするアプローチです。
現在、PoT では主に Python が使用されています。
ただし、1 つの言語だけに依存すると、次善のソリューションが得られ、他のプログラミング言語の潜在的な利点が見落とされる可能性があります。
このペーパーでは、PoT で使用されるプログラミング言語に関する包括的な実験を実施し、すべてのタスクとモデルにわたって一貫して最適なパフォーマンスを提供する単一の言語はないことがわかりました。
各言語の有効性は、特定のシナリオに応じて異なります。
これに触発されて、私たちは、さまざまな言語の強みと多様性を活用する、MultiPoT と呼ばれるタスクとモデルに依存しないアプローチを提案します。
実験結果では、Python Self-Consistency を大幅に上回るパフォーマンスを示しています。
さらに、すべてのモデルのほぼすべてのタスクにおいて、最高の単一言語 PoT と比較して同等またはそれ以上のパフォーマンスを実現します。
特に、MultiPoT は ChatGPT (gpt-3.5-turbo-0701) で平均 4.6% 以上の改善を達成しています。
要約(オリジナル)
Program of Thoughts (PoT) is an approach characterized by its executable intermediate steps, which ensure the accuracy of the logical calculations in the reasoning process. Currently, PoT primarily uses Python. However, relying solely on a single language may result in suboptimal solutions and overlook the potential benefits of other programming languages. In this paper, we conduct comprehensive experiments on the programming languages used in PoT and find that no single language consistently delivers optimal performance across all tasks and models. The effectiveness of each language varies depending on the specific scenarios. Inspired by this, we propose a task and model agnostic approach called MultiPoT, which harnesses strength and diversity from various languages. Experimental results reveal that it significantly outperforms Python Self-Consistency. Furthermore, it achieves comparable or superior performance compared to the best monolingual PoT in almost all tasks across all models. In particular, MultiPoT achieves more than 4.6% improvement on average on ChatGPT (gpt-3.5-turbo-0701).
arxiv情報
著者 | Xianzhen Luo,Qingfu Zhu,Zhiming Zhang,Libo Qin,Xuanyu Zhang,Qing Yang,Dongliang Xu,Wanxiang Che |
発行日 | 2024-11-18 09:53:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google