要約
ロボットタスクのオブジェクト配置は、オブジェクトの形状と配置構成の多様性のために、本質的に困難です。
これに対処するために、私たちは、実際のタスクのための幅広い実行可能な配置ポーズを予測できる合成データで完全に訓練された2段階の方法である任意の場所を提案します。
私たちの重要な洞察は、ビジョン言語モデル(VLM)を活用して大まかな配置場所を特定することにより、ローカル配置の関連領域のみに焦点を当て、低レベルの配置ポーズ予測モデルをトレーニングして多様なものをキャプチャできることです。
効率的に配置。
トレーニングのために、さまざまな配置構成(挿入、スタッキング、ハンギング)でランダムに生成されたオブジェクトの完全な合成データセットを生成し、ローカル配置予測モデルをトレーニングします。
私たちは、シミュレーションで広範な評価を実施し、私たちの方法が成功率、可能な配置モードのカバレッジ、および精度の観点からベースラインよりも優れていることを示しています。
現実世界の実験では、私たちのアプローチが純粋に合成データで訓練されたモデルを現実世界に直接転送する方法を示します。他のモデルが苦労しているシナリオの配置を成功裏に実行します。
細かい配置のための高精度。
詳細:https://any-place.github.io。
要約(オリジナル)
Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle — such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.
arxiv情報
著者 | Yuchi Zhao,Miroslav Bogdanovic,Chengyuan Luo,Steven Tohme,Kourosh Darvish,Alán Aspuru-Guzik,Florian Shkurti,Animesh Garg |
発行日 | 2025-02-06 22:04:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google