Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop

要約

人間は視覚的な世界を受動的に観察しません – 私たちは行動するために積極的に見ています。
この原則に動機付けられていると、実際のタスクを完了する必要性から生じる視線の動作を備えたロボットシステムであるEyerobotを紹介します。
私たちは、自由に回転して周囲を観察し、強化学習を使用してそれを制御するために視線ポリシーを訓練できる機械的な眼球を開発します。
これを最初に360カメラと組み合わせたテレオパードデモを収集することでこれを達成します。
このデータは、任意の眼球の視点のレンダリングをサポートするシミュレーション環境にインポートされ、ロボットデモンストレーションの上にエピソードロールアウトの目の視線が可能になります。
次に、BC-RLループを導入して手と目を共同で訓練します。手(BC)エージェントは、レンダリングされた眼の観察から訓練され、手が正しいアクション予測を生成すると眼(RL)エージェントが報われます。
このようにして、目がタスクを完了できる領域に目を向けると、手と目の調整が現れます。
Eyerobotは、中心窩に触発された政策アーキテクチャを実装して、小さな計算予算で高解像度を可能にします。これは、より安定した固定の出現と、オブジェクトを追跡してディストラクタを無視する能力の向上につながることがわかります。
ロボットアームを囲むアークで操作を必要とする5つのパノラマワークスペース操作タスクでEyerobotを評価します。
私たちの実験は、アイロボットが1つのカメラを使用して大きなワークスペース上の操作を効果的に促進する手と目の調整行動を示すことを示唆しています。
ビデオについてはプロジェクトサイトを参照してください:https://www.eyerobot.net/

要約(オリジナル)

Humans do not passively observe the visual world — we actively look in order to act. Motivated by this principle, we introduce EyeRobot, a robotic system with gaze behavior that emerges from the need to complete real-world tasks. We develop a mechanical eyeball that can freely rotate to observe its surroundings and train a gaze policy to control it using reinforcement learning. We accomplish this by first collecting teleoperated demonstrations paired with a 360 camera. This data is imported into a simulation environment that supports rendering arbitrary eyeball viewpoints, allowing episode rollouts of eye gaze on top of robot demonstrations. We then introduce a BC-RL loop to train the hand and eye jointly: the hand (BC) agent is trained from rendered eye observations, and the eye (RL) agent is rewarded when the hand produces correct action predictions. In this way, hand-eye coordination emerges as the eye looks towards regions which allow the hand to complete the task. EyeRobot implements a foveal-inspired policy architecture allowing high resolution with a small compute budget, which we find also leads to the emergence of more stable fixation as well as improved ability to track objects and ignore distractors. We evaluate EyeRobot on five panoramic workspace manipulation tasks requiring manipulation in an arc surrounding the robot arm. Our experiments suggest EyeRobot exhibits hand-eye coordination behaviors which effectively facilitate manipulation over large workspaces with a single camera. See project site for videos: https://www.eyerobot.net/

arxiv情報

著者 Justin Kerr,Kush Hari,Ethan Weber,Chung Min Kim,Brent Yi,Tyler Bonnen,Ken Goldberg,Angjoo Kanazawa
発行日 2025-06-12 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク