要約
テーブルの整理整頓と同様に、シーンの再配置は、さまざまなオブジェクトの配置を予測する複雑さのため、ロボット操作では困難な作業です。
安定拡散などの Web スケールでトレーニングされた生成モデルは、自然のシーンを目標として生成することで役立ちます。
ロボットの実行を容易にするために、オブジェクト レベルの表現を抽出して、実際のシーンと生成された目標を照合し、オブジェクトのポーズ変換を計算する必要があります。
現在の手法では通常、生成、セグメンテーション、特徴エンコードに個別のモデルを使用する複数ステップの設計が使用されており、エラーの蓄積により成功率が低下する可能性があります。
さらに、生成された目標の表示パースペクティブを制御できず、タスクが 3-DoF 設定に制限されます。
この論文では、安定拡散から派生した遠近感を意識したクロスアテンション表現を活用したシーン再配置のためのゼロショット パイプラインである PACA を提案します。
具体的には、生成、セグメンテーション、および特徴エンコードを 1 つのステップに統合してオブジェクト レベルの表現を生成する表現を開発します。
さらに、遠近制御を導入することで、6-DoF カメラ ビューのマッチングが可能になり、3-DoF のトップダウン ビューに限定されていたこれまでのアプローチを拡張できます。
私たちの手法の有効性は、さまざまなシーンにわたる実際のロボット実験におけるゼロショットのパフォーマンスによって実証され、平均マッチング精度と実行成功率がそれぞれ 87% と 67% を達成しました。
要約(オリジナル)
Scene rearrangement, like table tidying, is a challenging task in robotic manipulation due to the complexity of predicting diverse object arrangements. Web-scale trained generative models such as Stable Diffusion can aid by generating natural scenes as goals. To facilitate robot execution, object-level representations must be extracted to match the real scenes with the generated goals and to calculate object pose transformations. Current methods typically use a multi-step design that involves separate models for generation, segmentation, and feature encoding, which can lead to a low success rate due to error accumulation. Furthermore, they lack control over the viewing perspectives of the generated goals, restricting the tasks to 3-DoF settings. In this paper, we propose PACA, a zero-shot pipeline for scene rearrangement that leverages perspective-aware cross-attention representation derived from Stable Diffusion. Specifically, we develop a representation that integrates generation, segmentation, and feature encoding into a single step to produce object-level representations. Additionally, we introduce perspective control, thus enabling the matching of 6-DoF camera views and extending past approaches that were limited to 3-DoF top-down views. The efficacy of our method is demonstrated through its zero-shot performance in real robot experiments across various scenes, achieving an average matching accuracy and execution success rate of 87% and 67%, respectively.
arxiv情報
著者 | Shutong Jin,Ruiyu Wang,Kuangyi Chen,Florian T. Pokorny |
発行日 | 2024-12-01 11:38:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google