要約
最近の具体化されたエージェントは、主に強化学習(RL)または大手言語モデル(LLM)に基づいて構築されています。
その中でも、RLエージェントは展開に効率的ですが、タスクはほとんど実行されません。
対照的に、巨大なLLMエージェント(多くの場合、1000B以上のパラメーター)は、膨大なコンピューティングリソースを要求しながら、強力な一般化を提示します。
この作業では、開発された大規模な自動回帰モデル(LARM)で提案された審判RLを実施することにより、それらの利点を和らぎながら欠点を避けます。
具体的には、LARMは軽量LLM(5B未満のパラメーター)の上に構築されており、テキストではなく実行する次のアクションを直接出力します。
長老様式の具体化された探査で古典的なRLフィードバックが消滅し、トレーニング中にこの報酬の消失を処理するために巨大なLLMベースの審判を導入することを数学的に明らかにします。
このようにして、Larmは、人間の介入なしに多様なオープンワールドタスクを完了することを学びます。
特に、LARMはMinecraftの魅惑的なダイヤモンド機器を正常に収穫します。これは、以前の最良の方法の最高の成果よりもかなり長い意思決定チェーンを必要とします。
要約(オリジナル)
Recent embodied agents are primarily built based on reinforcement learning (RL) or large language models (LLMs). Among them, RL agents are efficient for deployment but only perform very few tasks. By contrast, giant LLM agents (often more than 1000B parameters) present strong generalization while demanding enormous computing resources. In this work, we combine their advantages while avoiding the drawbacks by conducting the proposed referee RL on our developed large auto-regressive model (LARM). Specifically, LARM is built upon a lightweight LLM (fewer than 5B parameters) and directly outputs the next action to execute rather than text. We mathematically reveal that classic RL feedbacks vanish in long-horizon embodied exploration and introduce a giant LLM based referee to handle this reward vanishment during training LARM. In this way, LARM learns to complete diverse open-world tasks without human intervention. Especially, LARM successfully harvests enchanted diamond equipment in Minecraft, which demands significantly longer decision-making chains than the highest achievements of prior best methods.
arxiv情報
著者 | Zhuoling Li,Xiaogang Xu,Zhenhua Xu,SerNam Lim,Hengshuang Zhao |
発行日 | 2025-02-05 14:06:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google