要約
模倣学習の最近の進歩により、ロボット制御と身体化された知能が大いに期待できることが示されています。
しかし、設置されたカメラによる多様な観察全体にわたって堅牢な一般化を達成することは、依然として重要な課題です。
このペーパーでは、照明の変化の処理に重点を置き、環境の変動に対処するために 3D 空間表現を活用する、ビデオベースの空間認識フレームワークを紹介します。
私たちのアプローチは、新しい画像拡張技術である AugBlender を、インターネット規模のデータでトレーニングされた最先端の単眼奥行き推定モデルと統合します。
これらのコンポーネントは一緒になって、動的なシナリオにおける堅牢性と適応性を強化するように設計された統合システムを形成します。
私たちの結果は、以前のモデルではパフォーマンスが低下していた場合に、私たちのアプローチがさまざまなカメラ露出で成功率を大幅に高めることを示しています。
私たちの調査結果は、エンドツーエンドのロボット学習の堅牢性を向上させ、身体化されたインテリジェンスにおけるスケーラブルで低コストのソリューションへの道を開くビデオベースの空間認識モデルの可能性を強調しています。
要約(オリジナル)
Recent advances in imitation learning have shown significant promise for robotic control and embodied intelligence. However, achieving robust generalization across diverse mounted camera observations remains a critical challenge. In this paper, we introduce a video-based spatial perception framework that leverages 3D spatial representations to address environmental variability, with a focus on handling lighting changes. Our approach integrates a novel image augmentation technique, AugBlender, with a state-of-the-art monocular depth estimation model trained on internet-scale data. Together, these components form a cohesive system designed to enhance robustness and adaptability in dynamic scenarios. Our results demonstrate that our approach significantly boosts the success rate across diverse camera exposures, where previous models experience performance collapse. Our findings highlight the potential of video-based spatial perception models in advancing robustness for end-to-end robotic learning, paving the way for scalable, low-cost solutions in embodied intelligence.
arxiv情報
著者 | Travis Davies,Jiahuan Yan,Xiang Chen,Yu Tian,Yueting Zhuang,Yiqi Huang,Luhui Hu |
発行日 | 2024-11-26 14:23:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google