GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications

要約

大規模言語モデル (LLM) は、対話システム内で情報を提供するという従来の役割を超えて、ツールと積極的に連携し、現実世界のアプリケーションやサービスでアクションを実行するように進化しています。
現在、人間は、LLM によって生成された出力 (コード、関数、アクションなど) を実際に実行する前に、その正確性と適切性を検証しています。
コードの理解が難しいことで知られているため、これは大きな課題となります。
この論文では、将来的に人間が自律型 LLM と効率的に協力し、委任し、監視する方法を研究します。
多くの場合、出力を確認した後で提案されたアクションの正しさを検証する「事後検証」の方が、前述の「事後検証」設定よりもはるかに簡単であると私たちは主張します。
事後検証システムを実現するための中心的なコンセプトは、直観的な元に戻す機能の統合と、関連するリスクを軽減するための効果的な戦略として、LLM によって生成されたアクションに対するダメージの制限を確立することです。
これを使用すると、人間は LLM が生成した出力の影響を元に戻すか、潜在的なリスクが限定されていると確信できるようになります。
これは、LLM エージェントが限られた (事後的な) 人間の関与でアプリケーションやサービスと対話できる可能性を引き出すために重要であると考えています。
LLM アクションを実行するためのオープンソース ランタイム、Gorilla Execution Engine (GoEX) の設計と実装について説明し、最小限の人間の監視で LLM とアプリケーションが相互に対話するという目標の実現に向けた未解決の研究課題を提示します。
GoEX は https://github.com/ShishirPatil/gorilla/ でリリースされています。

要約(オリジナル)

Large Language Models (LLMs) are evolving beyond their classical role of providing information within dialogue systems to actively engaging with tools and performing actions on real-world applications and services. Today, humans verify the correctness and appropriateness of the LLM-generated outputs (e.g., code, functions, or actions) before putting them into real-world execution. This poses significant challenges as code comprehension is well known to be notoriously difficult. In this paper, we study how humans can efficiently collaborate with, delegate to, and supervise autonomous LLMs in the future. We argue that in many cases, ‘post-facto validation’ – verifying the correctness of a proposed action after seeing the output – is much easier than the aforementioned ‘pre-facto validation’ setting. The core concept behind enabling a post-facto validation system is the integration of an intuitive undo feature, and establishing a damage confinement for the LLM-generated actions as effective strategies to mitigate the associated risks. Using this, a human can now either revert the effect of an LLM-generated output or be confident that the potential risk is bounded. We believe this is critical to unlock the potential for LLM agents to interact with applications and services with limited (post-facto) human involvement. We describe the design and implementation of our open-source runtime for executing LLM actions, Gorilla Execution Engine (GoEX), and present open research questions towards realizing the goal of LLMs and applications interacting with each other with minimal human supervision. We release GoEX at https://github.com/ShishirPatil/gorilla/.

arxiv情報

著者 Shishir G. Patil,Tianjun Zhang,Vivian Fang,Noppapon C.,Roy Huang,Aaron Hao,Martin Casado,Joseph E. Gonzalez,Raluca Ada Popa,Ion Stoica
発行日 2024-04-10 11:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク