Is Imitation All You Need? Generalized Decision-Making with Dual-Phase Training

要約

過剰適合動作やタスク固有の微調整への依存など、現在の方法によってもたらされる課題に対処するさまざまな意思決定タスクに取り組むように設計されたジェネラリスト エージェントである DualMind を紹介します。
DualMind は、人間が世界でどのように行動するかをエミュレートする、新しい「デュアルフェーズ」トレーニング戦略を使用しています。
モデルはまず、制御タスクに合わせて調整された自己監視目標を通じて基本的な共通知識を学習し、次に、与えられたプロンプトに基づいて条件付けされた行動を模倣することで、さまざまなコンテキストに基づいて意思決定を行う方法を学習します。
DualMind は、単一のモデル重みセットのみを使用して、ドメイン、シーン、および実施形態にわたるタスクを処理でき、タスク固有の微調整を必要とせずにゼロショット プロンプトを実行できます。
私たちは広範な実験を通じて MetaWorld と Habitat で DualMind を評価し、以前の技術と比較してその優れた汎用性を実証し、Habitat と MetaWorld でそれぞれ 50$\%$ と 70$\%$ 以上、他のジェネラリスト エージェントを上回りました。
MetaWorld の 45 のタスクにおいて、DualMind は 90$\%$ の成功率で 30 以上のタスクを達成します。

要約(オリジナル)

We introduce DualMind, a generalist agent designed to tackle various decision-making tasks that addresses challenges posed by current methods, such as overfitting behaviors and dependence on task-specific fine-tuning. DualMind uses a novel ‘Dual-phase’ training strategy that emulates how humans learn to act in the world. The model first learns fundamental common knowledge through a self-supervised objective tailored for control tasks and then learns how to make decisions based on different contexts through imitating behaviors conditioned on given prompts. DualMind can handle tasks across domains, scenes, and embodiments using just a single set of model weights and can execute zero-shot prompting without requiring task-specific fine-tuning. We evaluate DualMind on MetaWorld and Habitat through extensive experiments and demonstrate its superior generalizability compared to previous techniques, outperforming other generalist agents by over 50$\%$ and 70$\%$ on Habitat and MetaWorld, respectively. On the 45 tasks in MetaWorld, DualMind achieves over 30 tasks at a 90$\%$ success rate.

arxiv情報

著者 Yao Wei,Yanchao Sun,Ruijie Zheng,Sai Vemprala,Rogerio Bonatti,Shuhang Chen,Ratnesh Madaan,Zhongjie Ba,Ashish Kapoor,Shuang Ma
発行日 2023-07-18 16:05:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク