Latent Space Planning for Multi-Object Manipulation with Environment-Aware Relational Classifiers

要約

人間の日常環境において、物体が孤立して存在することはほとんどありません。
ロボットに人間の環境で操作してタスクを実行してもらいたい場合、ロボットは、最も単純なタスクを除くすべてのタスクにおいて、ロボットが操作するオブジェクトが環境の構造要素とどのように相互作用するかを理解する必要があります。
そのため、私たちはロボットに、複数の物体や環境要素が互いにどのように関係しているのか、そしてロボットが世界と対話するにつれてそれらの関係がどのように変化するのかを推論できるようにしたいと考えています。
私たちは、純粋に部分視点の点群から、これまで見たことのない物体と新しい環境の間の物体間および物体と環境の関係を予測する問題を検討します。
私たちのアプローチにより、ロボットは論理関係から定義された複数オブジェクトの操作タスクを完了するためのシーケンスを計画および実行できます。
これにより、明示的で連続的なオブジェクトの状態を目標としてロボットに提供する負担が軽減されます。
このタスクのために、いくつかの異なるニューラル ネットワーク アーキテクチャを検討します。
私たちは、オブジェクトと環境の関係を予測し、潜在空間ダイナミクス関数を学習する、新しいトランスフォーマー ベースのニューラル ネットワークが最もパフォーマンスの高いモデルであることを発見しました。
微調整を行わずに、信頼性の高い SIM からリアルへの転送を実現します。
私たちの実験は、観察された環境幾何学の変化がオブジェクト間の意味論的な関係にどのように関係しているかをモデルが理解していることを示しています。
当社のウェブサイト https://sites.google.com/view/erelationaldynamics でさらに多くのビデオをご覧いただけます。

要約(オリジナル)

Objects rarely sit in isolation in everyday human environments. If we want robots to operate and perform tasks in our human environments, they must understand how the objects they manipulate will interact with structural elements of the environment for all but the simplest of tasks. As such, we’d like our robots to reason about how multiple objects and environmental elements relate to one another and how those relations may change as the robot interacts with the world. We examine the problem of predicting inter-object and object-environment relations between previously unseen objects and novel environments purely from partial-view point clouds. Our approach enables robots to plan and execute sequences to complete multi-object manipulation tasks defined from logical relations. This removes the burden of providing explicit, continuous object states as goals to the robot. We explore several different neural network architectures for this task. We find the best performing model to be a novel transformer-based neural network that both predicts object-environment relations and learns a latent-space dynamics function. We achieve reliable sim-to-real transfer without any fine-tuning. Our experiments show that our model understands how changes in observed environmental geometry relate to semantic relations between objects. We show more videos on our website: https://sites.google.com/view/erelationaldynamics.

arxiv情報

著者 Yixuan Huang,Nichols Crawford Taylor,Adam Conkey,Weiyu Liu,Tucker Hermans
発行日 2024-01-28 05:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク