Middleware for LLMs: Tools Are Instrumental for Language Agents in Complex Environments


大規模言語モデル (LLM) のアプリケーションはテキスト処理の範囲をはるかに超えて拡張されており、LLM が複雑な現実世界の環境内で動作できる汎用的な言語エージェントとして構想される新時代の到来を告げています。
これらの環境は多くの場合、非常に拡張性が高いため、LLM が短期メモリ内で環境を処理することが不可能になります。
この文書は、ツールを使用して LLM の機能を拡張することに関する最近の研究を動機として、そのような複雑さを処理する際に LLM を強化するツールの興味深い可能性を調査します。
このようなツールは、環境の複雑さから LLM を保護するミドルウェア層として機能します。
ナレッジ ベース (KB) とデータベースという 2 つの代表的な複雑な環境で、複雑な環境でツールを使用して言語エージェントを強化することの大きな可能性を実証します。
特に、これらのツールを装備した GPT-4 は、データベース コンテンツへのアクセスを必要とするタスクで最高のベースラインの 2.8 倍、KB タスクで 2.2 倍のパフォーマンスを達成します。


The applications of large language models (LLMs) have expanded well beyond the confines of text processing, signaling a new era where LLMs are envisioned as generalist language agents capable of operating within complex real-world environments. These environments are often highly expansive, making it impossible for the LLM to process them within its short-term memory. Motivated by recent research on extending the capabilities of LLMs with tools, this paper investigates the intriguing potential of tools to augment LLMs in handling such complexity. To this end, we design customized tools to aid in the proactive exploration within these massive environments. Such tools can serve as a middleware layer shielding the LLM from environmental complexity. In two representative complex environments — knowledge bases (KBs) and databases — we demonstrate the significant potential of augmenting language agents with tools in complex environments. Notably, equipped with these tools, GPT-4 achieves 2.8X the performance of the best baseline in tasks requiring access to database content and 2.2X in KB tasks. Our findings illuminate the path for advancing language agents in complex real-world applications.


著者 Yu Gu,Yiheng Shu,Hao Yu,Xiao Liu,Yuxiao Dong,Jie Tang,Jayanth Srinivasa,Hugo Latapie,Yu Su
発行日 2024-02-22 16:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク