要約
大規模言語モデル (LLM) は、多数のタスクにわたって優れたパフォーマンスを発揮しますが、LLM の知識と環境が一致していないため、単純な意思決定タスクの解決に失敗することがよくあります。
逆に、強化学習 (RL) エージェントはポリシーを最初から学習するため、ポリシーは常に環境に合わせて調整されますが、効率的な探索のための事前知識を組み込むのは困難です。
このギャップを埋めるために、我々は、準備されたデータセットや環境に関する事前知識を必要とせずに、RL を介して具体化された環境と効率的に対話し調整するための意思決定エージェントとして LLM を展開する、新しい一般的なオンライン フレームワークである TWOSOME を提案します。
まず、動作ポリシーを形成するために、LLM を使用して各有効なアクションの同時確率をクエリします。
次に、ポリシーの安定性と堅牢性を強化するために、2 つの正規化方法を提案し、4 つのプロンプト設計原則を要約します。
最後に、俳優と批評家が、PPO によって更新された低ランク アダプター (LoRA) を備えた 1 つの凍結された LLM を共有する、新しいパラメーター効率の高いトレーニング アーキテクチャを設計します。
TWOSOME を評価するために広範な実験を行っています。
i) TWOSOME は、古典的な意思決定環境である Overcooked と模擬家庭環境である VirtualHome の両方において、従来の RL 手法である PPO およびプロンプト チューニング手法である SayCan と比較して、大幅に優れたサンプル効率とパフォーマンスを示します。
ii) LLM のオープン語彙機能の恩恵を受けて、TWOSOME は目に見えないタスクに対して優れた一般化能力を示します。
iii) 私たちのフレームワークでは、オンライン PPO の微調整中に LLM の本来の能力が大幅に失われることはありません。
要約(オリジナル)
Despite the impressive performance across numerous tasks, large language models (LLMs) often fail in solving simple decision-making tasks due to the misalignment of the knowledge in LLMs with environments. On the contrary, reinforcement learning (RL) agents learn policies from scratch, which makes them always align with environments but difficult to incorporate prior knowledge for efficient explorations. To narrow the gap, we propose TWOSOME, a novel general online framework that deploys LLMs as decision-making agents to efficiently interact and align with embodied environments via RL without requiring any prepared datasets or prior knowledge of the environments. Firstly, we query the joint probabilities of each valid action with LLMs to form behavior policies. Then, to enhance the stability and robustness of the policies, we propose two normalization methods and summarize four prompt design principles. Finally, we design a novel parameter-efficient training architecture where the actor and critic share one frozen LLM equipped with low-rank adapters (LoRA) updated by PPO. We conduct extensive experiments to evaluate TWOSOME. i) TWOSOME exhibits significantly better sample efficiency and performance compared to the conventional RL method, PPO, and prompt tuning method, SayCan, in both classical decision-making environment, Overcooked, and simulated household environment, VirtualHome. ii) Benefiting from LLMs’ open-vocabulary feature, TWOSOME shows superior generalization ability to unseen tasks. iii) Under our framework, there is no significant loss of the LLMs’ original ability during online PPO finetuning.
arxiv情報
著者 | Weihao Tan,Wentao Zhang,Shanqi Liu,Longtao Zheng,Xinrun Wang,Bo An |
発行日 | 2024-01-25 13:03:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google