要約
非構造化環境で言語条件付きロボット操作タスクを実行することは、一般的なインテリジェント ロボットにとって非常に需要があります。
従来のロボット操作手法は通常、行動予測のために観察の意味論的表現を学習しますが、これは人間の目標達成のためのシーンレベルの時空間ダイナミクスを無視します。
この論文では、マルチタスクのロボット操作のために、ManiGaussian という名前の動的ガウス スプラッティング法を提案します。これは、将来のシーンの再構築を通じてシーンのダイナミクスをマイニングします。
具体的には、最初に、ガウス埋め込み空間でのセマンティクスの伝播を推論する動的ガウス スプラッティング フレームワークを定式化します。このフレームワークでは、セマンティクス表現を活用して最適なロボットの動作を予測します。
次に、動的ガウス スプラッティング フレームワークで分布をパラメータ化するためのガウス ワールド モデルを構築します。これにより、将来のシーンの再構築を通じて対話型環境で有益な監視が提供されます。
私たちは、166 のバリエーションを含む 10 の RLBench タスクで ManiGaussian を評価しました。結果は、私たちのフレームワークが平均成功率で最先端の手法を 13.1% 上回るパフォーマンスを発揮できることを示しています。
要約(オリジナル)
Performing language-conditioned robotic manipulation tasks in unstructured environments is highly demanded for general intelligent robots. Conventional robotic manipulation methods usually learn semantic representation of the observation for action prediction, which ignores the scene-level spatiotemporal dynamics for human goal completion. In this paper, we propose a dynamic Gaussian Splatting method named ManiGaussian for multi-task robotic manipulation, which mines scene dynamics via future scene reconstruction. Specifically, we first formulate the dynamic Gaussian Splatting framework that infers the semantics propagation in the Gaussian embedding space, where the semantic representation is leveraged to predict the optimal robot action. Then, we build a Gaussian world model to parameterize the distribution in our dynamic Gaussian Splatting framework, which provides informative supervision in the interactive environment via future scene reconstruction. We evaluate our ManiGaussian on 10 RLBench tasks with 166 variations, and the results demonstrate our framework can outperform the state-of-the-art methods by 13.1\% in average success rate.
arxiv情報
著者 | Guanxing Lu,Shiyi Zhang,Ziwei Wang,Changliu Liu,Jiwen Lu,Yansong Tang |
発行日 | 2024-03-13 08:06:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google