要約
大規模言語モデル (LLM) はツールの活用において大幅な進歩を遂げましたが、特に計画と実行の両方が関係する場合、その機能は API の可用性と暗黙的推論の不安定性によって制限されます。
これらの制限を克服するために、LLM がドキュメントとコード実現を使用して独自のツールを作成できるようにする新しいフレームワークである CREATOR を提案します。
CREATOR は、抽象的なツールの作成と具体的な意思決定の実行を分離し、パフォーマンスを向上させます。
CREATOR を MATH ベンチマークと TabMWP ベンチマークで評価します。それぞれ、難しい数学コンテストの問題と多様な表形式のコンテンツで構成されます。
驚くべきことに、CREATOR は既存の思考連鎖、思考プログラム、ツール使用のベースラインを上回っています。
さらに、LLM のツール作成能力の必要性と利点を強調するために、2K の多様な質問を特徴とする Creation Challenge データセットを紹介します。
さらなる研究により、ツール作成者として LLM を活用すると知識の伝達が容易になり、LLM はさまざまなレベルのツール作成能力を示し、多様な状況に適応できることが実証されました。
ツール作成能力は LLM の問題解決パラダイムに革命をもたらし、私たちを人工知能の次のフロンティアに近づけます。
コードとデータはすべて公開されています。
要約(オリジナル)
Large Language Models (LLMs) have made significant progress in utilizing tools, but their ability is limited by API availability and the instability of implicit reasoning, particularly when both planning and execution are involved. To overcome these limitations, we propose CREATOR, a novel framework that enables LLMs to create their own tools using documentation and code realization. CREATOR disentangles abstract tool creation and concrete decision execution, resulting in improved performance. We evaluate CREATOR on MATH and TabMWP benchmarks, respectively consisting of challenging math competition problems and diverse tabular contents. Remarkably, CREATOR outperforms existing chain-of-thought, program-of-thought, and tool-using baselines. Additionally, we introduce the Creation Challenge dataset, featuring 2K diverse questions, to emphasize the necessity and benefits of LLMs’ tool creation ability. Further research demonstrates that leveraging LLMs as tool creators facilitates knowledge transfer, and LLMs exhibit varying levels of tool creation abilities, enabling them to adapt to diverse situations. The tool creation ability revolutionizes the LLM’s problem-solving paradigm, driving us closer to the next frontier of artificial intelligence. All the codes and data are released.
arxiv情報
著者 | Cheng Qian,Chi Han,Yi R. Fung,Yujia Qin,Zhiyuan Liu,Heng Ji |
発行日 | 2024-06-21 16:51:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google