Latent Representations for Visual Proprioception in Inexpensive Robots

要約

ロボット操作には、ロボットの関節位置に関する明示的または暗黙的な知識が必要です。
正確な固有受容は、高品質の産業ロボットでは標準ですが、構造化されていない環境で動作する安価なロボットでは利用できないことがよくあります。
この論文では、次のように尋ねます。高速でシングルパス回帰アーキテクチャは、最も単純な操作設定でも利用可能な単一の外部カメラ画像から視覚的固有受容を実行できますか?
利用可能な限られたデータに適応した微調整技術を使用して、CNN、VAES、VIT、および微調整されたファイディアマーカーの袋を含むいくつかの潜在表現を探索します。
安価な6-DOFロボットでの実験を通じて、達成可能な精度を評価します。

要約(オリジナル)

Robotic manipulation requires explicit or implicit knowledge of the robot’s joint positions. Precise proprioception is standard in high-quality industrial robots but is often unavailable in inexpensive robots operating in unstructured environments. In this paper, we ask: to what extent can a fast, single-pass regression architecture perform visual proprioception from a single external camera image, available even in the simplest manipulation settings? We explore several latent representations, including CNNs, VAEs, ViTs, and bags of uncalibrated fiducial markers, using fine-tuning techniques adapted to the limited data available. We evaluate the achievable accuracy through experiments on an inexpensive 6-DoF robot.

arxiv情報

著者 Sahara Sheikholeslami,Ladislau Bölöni
発行日 2025-04-24 12:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク