Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach

要約

大規模言語モデル (LLM) は、大規模なテキスト データセットから取得した膨大な量の世界知識をエンコードします。
最近の研究では、LLM が高レベルの指示を提供することで、身体化されたエージェントが複雑な逐次的な意思決定タスクを解決するのを支援できることが実証されています。
ただし、LLM との対話には時間がかかる場合があります。
多くの実際的なシナリオでは、リモート クラウド サーバー ノードにのみ展開できる大量のストレージ スペースが必要になります。
さらに、商用 LLM を使用すると、使用頻度に基づいて料金が請求される場合があるため、コストがかかる可能性があります。
このペーパーでは、エージェントと LLM の間でインテリジェントでコスト効率の高い対話を可能にする方法を検討します。
私たちは、ターゲット タスクを達成するために LLM に高レベルの命令をクエリする必要がある時期を学習する強化学習ベースのアプローチである When2Ask を提案します。
サブ目標の計画を伴う MiniGrid 環境および Habitat 環境での実験では、When2Ask が LLM との必要なインタラクションをわずか数回行うだけでターゲット タスクを解決することを学習し、ベースライン手法と比較してテスト環境でのインタラクション コストを大幅に削減することが実証されました。
実験結果はまた、LLM と相互作用するメディエーター モデルを学習することによって、環境の部分的な可観測性に対してエージェントのパフォーマンスがより堅牢になることを示唆しています。
私たちのコードは https://github.com/ZJLAB-AMMI/LLM4RL で入手できます。

要約(オリジナル)

Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an embodied agent in solving complex sequential decision making tasks by providing high-level instructions. However, interactions with LLMs can be time-consuming. In many practical scenarios, they require a significant amount of storage space that can only be deployed on remote cloud server nodes. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable intelligent cost-effective interactions between the agent and an LLM. We propose When2Ask, a reinforcement learning based approach that learns when it is necessary to query LLMs for high-level instructions to accomplish a target task. Experiments on MiniGrid and Habitat environments that entail planning sub-goals demonstrate that When2Ask learns to solve target tasks with only a few necessary interactions with an LLM, and significantly reduces interaction costs in testing environments compared with baseline methods. Experiment results also suggest that by learning a mediator model to interact with the LLM, the agent’s performance becomes more robust against partial observability of the environment. Our code is available at https://github.com/ZJLAB-AMMI/LLM4RL.

arxiv情報

著者 Bin Hu,Chenyang Zhao,Pu Zhang,Zihao Zhou,Yuanhang Yang,Zenglin Xu,Bin Liu
発行日 2023-08-31 12:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク