AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

要約

模倣学習と報酬形成を中心とした物理ベースのモーション生成における従来のアプローチは、新しいシナリオに適応するのに苦労することがよくあります。
この制限に対処するために、私たちは、オープンボキャブラリーの指示に従って物理的に妥当なインタラクションを学習する新しい階層型メソッドである AnySkill を提案します。
私たちのアプローチは、模倣学習によって訓練された低レベルのコントローラーを介して一連のアトミック アクションを開発することから始まります。
AnySkill は、オープンボキャブラリーのテキスト命令を受け取ると、これらのアトミック アクションを選択して統合する高レベルのポリシーを採用して、エージェントのレンダリングされたイメージとテキストの間の CLIP の類似性を最大化します。
私たちの方法の重要な特徴は、高レベルのポリシーに画像ベースの報酬を使用することです。これにより、エージェントは手動の報酬エンジニアリングを行わずにオブジェクトとのインタラクションを学習できます。
私たちは、さまざまな長さの目に見えない命令に応答して現実的で自然なモーション シーケンスを生成する AnySkill の機能を実証し、これが対話型ヒューマノイド エージェント向けのオープンな語彙の身体スキル学習が可能な最初の方法であることを証明します。

要約(オリジナル)

Traditional approaches in physics-based motion generation, centered around imitation learning and reward shaping, often struggle to adapt to new scenarios. To tackle this limitation, we propose AnySkill, a novel hierarchical method that learns physically plausible interactions following open-vocabulary instructions. Our approach begins by developing a set of atomic actions via a low-level controller trained via imitation learning. Upon receiving an open-vocabulary textual instruction, AnySkill employs a high-level policy that selects and integrates these atomic actions to maximize the CLIP similarity between the agent’s rendered images and the text. An important feature of our method is the use of image-based rewards for the high-level policy, which allows the agent to learn interactions with objects without manual reward engineering. We demonstrate AnySkill’s capability to generate realistic and natural motion sequences in response to unseen instructions of varying lengths, marking it the first method capable of open-vocabulary physical skill learning for interactive humanoid agents.

arxiv情報

著者 Jieming Cui,Tengyu Liu,Nian Liu,Yaodong Yang,Yixin Zhu,Siyuan Huang
発行日 2024-03-19 15:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク