StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects

要約

【タイトル】StructDiffusion:物理的に妥当な構造を作成するための言語によるガイド付き、未知のオブジェクトを使用した手法

【要約】

– 人間の環境で動作するロボットは、これまで見たことがないオブジェクトを含めて、意味のある構成に物を再配置できる必要があります。
– この研究では、ステップバイステップの指示がなくても物理的に妥当な構造を建てることを目的としています。
– 提案された手法、StructDiffusionは、拡散モデルとオブジェクト中心のトランスフォーマーを組み合わせて、部分的な点群と高レベルの言語的目標(例:「テーブルを設定する」など)が与えられた場合に構造を構築することができます。
– StructDiffusionは、1つのモデルを使用して難しい言語条件付きの多段階3Dプランニングタスクを実行できます。
– さらに、StructDiffusionは、特定の構造にトレーニングされた既存のマルチモーダル・トランスフォーマー・モデルに比べ、目に見えないオブジェクトから物理的に妥当な構造を組み立てる成功率を平均16%向上させます。
– シミュレーションと実際の世界での再配置タスクの両方で、ホールドアウトオブジェクトの実験を示します。
– 重要なのは、拡散モデルと衝突判別器モデルを両方統合することで、以前見たことのないオブジェクトを再配置する場合に他の方法よりも汎用性を向上させる方法を示します。その他の結果やビデオについては、ウェブサイトhttps://structdiffusion.github.io/ を参照してください。

要約(オリジナル)

Robots operating in human environments must be able to rearrange objects into semantically-meaningful configurations, even if these objects are previously unseen. In this work, we focus on the problem of building physically-valid structures without step-by-step instructions. We propose StructDiffusion, which combines a diffusion model and an object-centric transformer to construct structures given partial-view point clouds and high-level language goals, such as ‘set the table’. Our method can perform multiple challenging language-conditioned multi-step 3D planning tasks using one model. StructDiffusion even improves the success rate of assembling physically-valid structures out of unseen objects by on average 16% over an existing multi-modal transformer model trained on specific structures. We show experiments on held-out objects in both simulation and on real-world rearrangement tasks. Importantly, we show how integrating both a diffusion model and a collision-discriminator model allows for improved generalization over other methods when rearranging previously-unseen objects. For videos and additional results, see our website: https://structdiffusion.github.io/.

arxiv情報

著者 Weiyu Liu,Yilun Du,Tucker Hermans,Sonia Chernova,Chris Paxton
発行日 2023-04-25 15:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク