Universal Actions for Enhanced Embodied Foundation Models

要約

多様なインターネット規模のデータでのトレーニングは、最近の大規模な基盤モデルの成功の重要な要素です。
しかし、同じレシピを使用して具体化されたエージェントを構築することは、顕著な困難に直面しています。
クラウドソーシングされた多くの具現化データセットが利用可能であるにもかかわらず、それらのアクション スペースは、さまざまなロボットの異なる物理的具現化と制御インターフェイスにより重大な異質性を示すことが多く、クロスドメイン データを使用した具現化基礎モデルの開発において大きな課題を引き起こしています。
このペーパーでは、トークン化されたユニバーサル アクション スペースで動作する新しい具体化された基盤モデリング フレームワークである UniAct を紹介します。
私たちの学習されたユニバーサルアクションは、共通の構造的特徴を活用することで多様なロボット全体にわたる一般的な原子的動作を捕捉し、悪名高い異質性を排除することでクロスドメインデータ利用の強化とクロス実施形態の一般化を可能にします。
普遍的な動作は、単に実施形態特有の詳細を追加することによって、異種の実行可能なコマンドに効率的に変換し戻すことができ、そこから新しいロボットへの迅速な適応が単純かつ簡単になる。
当社の 0.5B インスタンス化した UniAct は、さまざまな現実世界およびシミュレーション ロボットでの広範な評価において、14 倍大きい SOTA で具体化された基礎モデルを上回っており、例外的なクロスエンティティ制御および適応能力を示し、ユニバーサル アクションを採用することの重要な利点を強調しています。
プロジェクトページ:https://github.com/2toinf/UniAct

要約(オリジナル)

Training on diverse, internet-scale data is a key factor in the success of recent large foundation models. Yet, using the same recipe for building embodied agents has faced noticeable difficulties. Despite the availability of many crowd-sourced embodied datasets, their action spaces often exhibit significant heterogeneity due to distinct physical embodiment and control interfaces for different robots, causing substantial challenges in developing embodied foundation models using cross-domain data. In this paper, we introduce UniAct, a new embodied foundation modeling framework operating in a tokenized Universal Action Space. Our learned universal actions capture the generic atomic behaviors across diverse robots by exploiting their shared structural features, and enable enhanced cross-domain data utilization and cross-embodiment generalizations by eliminating the notorious heterogeneity. The universal actions can be efficiently translated back to heterogeneous actionable commands by simply adding embodiment-specific details, from which fast adaptation to new robots becomes simple and straightforward. Our 0.5B instantiation of UniAct outperforms 14X larger SOTA embodied foundation models in extensive evaluations on various real-world and simulation robots, showcasing exceptional cross-embodiment control and adaptation capability, highlighting the crucial benefit of adopting universal actions. Project page: https://github.com/2toinf/UniAct

arxiv情報

著者 Jinliang Zheng,Jianxiong Li,Dongxiu Liu,Yinan Zheng,Zhihao Wang,Zhonghong Ou,Yu Liu,Jingjing Liu,Ya-Qin Zhang,Xianyuan Zhan
発行日 2025-01-17 10:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク