A comparison of visual representations for real-world reinforcement learning in the context of vacuum gripping

要約

現実の世界でオブジェクトを操作する場合、意思決定を通知するためにセンサー情報を考慮したリアクティブなフィードバックポリシーが必要です。
この研究の目的は、ロボットアームのローカル周辺の空間環境を解釈するために、強化学習(RL)フレームワークでさまざまなエンコーダーをどのように使用できるかを判断することを目的としています。
私たちの調査では、現実世界のビジョンを3Dシーン入力と比較し、プロセスの新しいアーキテクチャを調査することに焦点を当てています。
SERLフレームワークの上に構築され、トレーニング時間を最小限に抑えながら、構築できる効率的で安定したRLファンデーションのサンプルを提供します。
この研究の結果は、空間情報が真空グリッパーでボックスピッキングタスクでテストされた視覚的なカウンターパートを大幅に上回るのに役立つことを示しています。
評価のコードとビデオは、https://github.com/nisutte/voxel-serlで入手できます。

要約(オリジナル)

When manipulating objects in the real world, we need reactive feedback policies that take into account sensor information to inform decisions. This study aims to determine how different encoders can be used in a reinforcement learning (RL) framework to interpret the spatial environment in the local surroundings of a robot arm. Our investigation focuses on comparing real-world vision with 3D scene inputs, exploring new architectures in the process. We built on the SERL framework, providing us with a sample efficient and stable RL foundation we could build upon, while keeping training times minimal. The results of this study indicate that spatial information helps to significantly outperform the visual counterpart, tested on a box picking task with a vacuum gripper. The code and videos of the evaluations are available at https://github.com/nisutte/voxel-serl.

arxiv情報

著者 Nico Sutter,Valentin N. Hartmann,Stelian Coros
発行日 2025-03-04 08:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク