要約
大量の視覚データに基づいてトレーニングされたビジョン基盤モデルは、オープンワールド設定で前例のない推論と計画スキルを示しました。
これらをロボットタスクに適用する際の主な課題は、視覚データとアクションデータの間のモダリティのギャップです。
微分可能なロボット レンダリングを紹介します。これは、ロボット本体の外観を制御パラメータに関して直接微分可能にする方法です。
私たちのモデルは、運動学を意識した変形可能モデルとガウス スプラッティングを統合しており、あらゆるロボットのフォーム ファクターおよび自由度と互換性があります。
画像からロボットのポーズを再構成したり、ビジョン言語モデルを介してロボットを制御したりするアプリケーションでのその機能と使用法を実証します。
定量的および定性的な結果は、微分可能なレンダリング モデルがピクセルから直接ロボット制御に効果的な勾配を提供し、ロボット工学におけるビジョン基盤モデルの将来のアプリケーションの基礎を確立することを示しています。
要約(オリジナル)
Vision foundation models trained on massive amounts of visual data have shown unprecedented reasoning and planning skills in open-world settings. A key challenge in applying them to robotic tasks is the modality gap between visual data and action data. We introduce differentiable robot rendering, a method allowing the visual appearance of a robot body to be directly differentiable with respect to its control parameters. Our model integrates a kinematics-aware deformable model and Gaussians Splatting and is compatible with any robot form factors and degrees of freedom. We demonstrate its capability and usage in applications including reconstruction of robot poses from images and controlling robots through vision language models. Quantitative and qualitative results show that our differentiable rendering model provides effective gradients for robotic control directly from pixels, setting the foundation for the future applications of vision foundation models in robotics.
arxiv情報
著者 | Ruoshi Liu,Alper Canberk,Shuran Song,Carl Vondrick |
発行日 | 2024-10-17 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google