Agent Instructs Large Language Models to be General Zero-Shot Reasoners

要約

一般的な言語理解タスクにおける大規模言語モデルのゼロショット推論能力を向上させる方法を紹介します。
具体的には、大規模な言語モデルの推論プロセスを指示する自律エージェントを構築します。
このアプローチにより、大規模な言語モデルのゼロショット推論能力がさらに多くのタスクに解き放たれることを示します。
私たちは、生成、分類、推論にわたる幅広いデータセットに対するメソッドのパフォーマンスを研究します。
私たちの方法がほとんどのタスクに一般化され、評価した 29 個のデータセットのうち 20 個で最先端のゼロショット パフォーマンスが得られることを示します。
たとえば、私たちの手法は、Vicuna-13b (13.3%)、Llama-2-70b-chat (23.2%)、GPT-3.5 Turbo などの最先端の大規模言語モデルのパフォーマンスを大幅に向上させます。
(17.0%)。
ゼロショットの思考連鎖と比較すると、推論の向上は著しく、平均 10.5% の向上です。
私たちの方法では、Llama-2-70b-chat はゼロショット GPT-3.5 Turbo を 10.2% 上回りました。

要約(オリジナル)

We introduce a method to improve the zero-shot reasoning abilities of large language models on general language understanding tasks. Specifically, we build an autonomous agent to instruct the reasoning process of large language models. We show this approach further unleashes the zero-shot reasoning abilities of large language models to more tasks. We study the performance of our method on a wide set of datasets spanning generation, classification, and reasoning. We show that our method generalizes to most tasks and obtains state-of-the-art zero-shot performance on 20 of the 29 datasets that we evaluate. For instance, our method boosts the performance of state-of-the-art large language models by a large margin, including Vicuna-13b (13.3%), Llama-2-70b-chat (23.2%), and GPT-3.5 Turbo (17.0%). Compared to zero-shot chain of thought, our improvement in reasoning is striking, with an average increase of 10.5%. With our method, Llama-2-70b-chat outperforms zero-shot GPT-3.5 Turbo by 10.2%.

arxiv情報

著者 Nicholas Crispino,Kyle Montgomery,Fankun Zeng,Dawn Song,Chenguang Wang
発行日 2024-08-14 17:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク