要約
散らかった棚から取得するオブジェクトは、現実世界のシナリオで人間を支援するロボットにとって重要な能力です。
このタスクを達成するには、周囲のオブジェクトへの妨害を最小限に抑えることにより、安全性を優先するロボットの動作が必要です。これは、制限されたモーションスペース、視野の制限、および複雑なオブジェクトのダイナミクスによる本質的ではあるが非常に困難な要件です。
このペーパーでは、ゼロショットの一般化可能なオブジェクトを実世界の設定で散らかった棚から取得できるように設計されたSIMからリアルのフレームワークであるFetchBotを紹介します。
データ不足に対処するために、多様なシミュレートされた乱雑な棚シーンを大規模に生成するための効率的なボクセルベースの方法を提案し、これらのシーン内でオブジェクトを取得する軌跡を取得するためのダイナミクスを認識した強化学習(RL)ポリシーを訓練します。
Oracle情報を活用するこのRLポリシーは、その後、実際の展開のためのビジョンベースのポリシーに蒸留されます。
Sim-to-Realの矛盾は、ほとんどの場合、幾何学的な寸法からのテクスチャの変動に起因することを考慮して、SIMベースのポリシーの入力としてSIM-to-Realギャップを緩和するための入力として、本格的な深度基礎モデルによって推定される深度情報を採用することを提案します。
。
限られたビューの課題に取り組むために、マルチビュー表現を学習するための新しいアーキテクチャを設計し、散らかった棚シーンの包括的なエンコードを可能にします。
これにより、FetchBotはさまざまな位置や深さからオブジェクトをフェッチしながら衝突を効果的に最小限に抑え、堅牢で安全性の高い操作を確保できます。
シミュレーションとリアルロボットの両方の実験は、特に幅広い現実世界のシナリオを処理する際に、Fetchbotの優れた一般化能力を示しています。
要約(オリジナル)
Object fetching from cluttered shelves is an important capability for robots to assist humans in real-world scenarios. Achieving this task demands robotic behaviors that prioritize safety by minimizing disturbances to surrounding objects, an essential but highly challenging requirement due to restricted motion space, limited fields of view, and complex object dynamics. In this paper, we introduce FetchBot, a sim-to-real framework designed to enable zero-shot generalizable and safety-aware object fetching from cluttered shelves in real-world settings. To address data scarcity, we propose an efficient voxel-based method for generating diverse simulated cluttered shelf scenes at scale and train a dynamics-aware reinforcement learning (RL) policy to generate object fetching trajectories within these scenes. This RL policy, which leverages oracle information, is subsequently distilled into a vision-based policy for real-world deployment. Considering that sim-to-real discrepancies stem from texture variations mostly while from geometric dimensions rarely, we propose to adopt depth information estimated by full-fledged depth foundation models as the input for the vision-based policy to mitigate sim-to-real gap. To tackle the challenge of limited views, we design a novel architecture for learning multi-view representations, allowing for comprehensive encoding of cluttered shelf scenes. This enables FetchBot to effectively minimize collisions while fetching objects from varying positions and depths, ensuring robust and safety-aware operation. Both simulation and real-robot experiments demonstrate FetchBot’s superior generalization ability, particularly in handling a broad range of real-world scenarios, includ
arxiv情報
著者 | Weiheng Liu,Yuxuan Wan,Jilong Wang,Yuxuan Kuang,Xuesong Shi,Haoran Li,Dongbin Zhao,Zhizheng Zhang,He Wang |
発行日 | 2025-02-25 06:32:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google