要約
大規模言語モデル (LLM) は、さまざまなタスクのツールとして外部 API を利用する点で大きな進歩を示しています。
ただし、ツールの使用能力は、特に計画と実際の計算に関する推論を同時に行う場合、適切な API の可用性と暗黙的な推論の不安定性によって制限されます。
これらの制限に対処するために、LLM がドキュメント化とコード実現を通じて独自のツールを作成できるようにする新しいフレームワークである CREATOR を提案します。
CREATOR は、LLM の機能を 2 つの異なるフェーズ (抽象的なツールの作成と具体的な意思決定の実行) に分解し、LLM のパフォーマンスを向上させます。
私たちは、確立された 2 つのベンチマークで CREATOR を評価します。1 つは難解な数学コンテストの問題で構成される MATH、もう 1 つは問題解決のための多様な表形式コンテンツを含む TabMWP です。
驚くべきことに、CREATOR は、これら 2 つのベンチマークにおいて、既存の思考連鎖 (CoT)、思考プログラム (PoT)、およびツール使用ベースラインを大幅に上回っています。
さらに、これらの問題に効果的に対処する際の LLM のツール作成能力の必要性と利点を強調するために、2,000 個の多様な質問で構成される新しいデータセット、Creation Challenge を紹介します。
さらに、私たちの調査では、ツール作成者として LLM を活用することで知識の伝達が容易になり、LLM がさまざまなレベルのツール作成能力を示し、多様な状況に柔軟に対処できることが明らかになりました。
私たちの研究は、LLM の可能性を最大化し、真にインテリジェントで適応性のある AI システムに向けて前進するための有望な道筋を示しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated significant progress in utilizing external APIs as tools for various tasks. However, their tool-using ability is limited by the availability of suitable APIs and the instability of implicit reasoning, particularly when simultaneously engaging in reasoning about plans and actual calculations. To address these limitations, we propose CREATOR, a novel framework that empowers LLMs to create their own tools through documentation and code realization. CREATOR disentangles the LLM’s ability into two distinct phases: abstract tool creation and concrete decision execution, which results in improved LLM performance. We evaluate CREATOR on two established benchmarks: MATH, which consists of challenging math competition problems, and TabMWP, which includes diverse tabular contents for problem-solving. Remarkably, CREATOR significantly outperforms existing chain-of-thought (CoT), program-of-thought (PoT), and tool-using baselines on these two benchmarks. Additionally, we present a new dataset, Creation Challenge, comprising 2K diverse questions, to highlight the necessity and benefits of LLMs’ tool creation ability in effectively addressing these problems. Furthermore, our research reveals that leveraging LLMs as tool creators facilitates knowledge transfer, and LLMs exhibit varying levels of tool creation abilities, enabling them to flexibly tackle diverse situations. Our study represents a promising avenue for maximizing the potential of LLMs and advancing toward truly intelligent and adaptable AI systems.
arxiv情報
著者 | Cheng Qian,Chi Han,Yi R. Fung,Yujia Qin,Zhiyuan Liu,Heng Ji |
発行日 | 2023-05-23 17:51:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google