DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects

要約

生地のような弾塑性オブジェクトの操作には、多くの場合、分割や結合などのトポロジカルな変化が含まれます。
特定のアクションによって生じる可能性のあるこれらのトポロジー変化を正確に予測する機能は、弾塑性オブジェクトとの相互作用を計画するために重要です。
私たちは、これらの課題に対処するための Transformer ベースのアーキテクチャである DoughNet を紹介します。これは 2 つのコンポーネントで構成されます。
まず、ノイズ除去オートエンコーダーは、さまざまなトポロジーの変形可能なオブジェクトを潜在コードのセットとして表します。
第 2 に、視覚的予測モデルは自己回帰セット予測を実行して、純粋に潜在空間内で長期の幾何学的変形と位相変化を決定します。
部分的な初期状態と必要な操作軌跡が与えられると、各ステップで結果として得られるすべてのオブジェクトのジオメトリとトポロジが推測されます。
これにより、DoughNet によりロボット操作を計画できるようになります。
適切なツール、その姿勢、開口部の幅を選択して、ロボットまたは人間が作成した目標を再現します。
シミュレーション環境と実際の環境での実験では、DoughNet が、変形を幾何学的変化としてのみ考慮する関連アプローチよりも大幅に優れたパフォーマンスを発揮できることがわかりました。

要約(オリジナル)

Manipulation of elastoplastic objects like dough often involves topological changes such as splitting and merging. The ability to accurately predict these topological changes that a specific action might incur is critical for planning interactions with elastoplastic objects. We present DoughNet, a Transformer-based architecture for handling these challenges, consisting of two components. First, a denoising autoencoder represents deformable objects of varying topology as sets of latent codes. Second, a visual predictive model performs autoregressive set prediction to determine long-horizon geometrical deformation and topological changes purely in latent space. Given a partial initial state and desired manipulation trajectories, it infers all resulting object geometries and topologies at each step. DoughNet thereby allows to plan robotic manipulation; selecting a suited tool, its pose and opening width to recreate robot- or human-made goals. Our experiments in simulated and real environments show that DoughNet is able to significantly outperform related approaches that consider deformation only as geometrical change.

arxiv情報

著者 Dominik Bauer,Zhenjia Xu,Shuran Song
発行日 2024-04-18 21:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク