要約
最初に靴ひもを結ぶことを学ぶときに、靴ひもを見る必要がありますが、このスキルを習得すれば、触るだけでそれを行うことができます。
私たちはこの現象を「感覚足場」と呼んでいます。マスターには必要のない観察ストリームが、初心者の学習者には役立つ可能性があります。
私たちは、人工エージェントを訓練するためのこのような感覚足場のセットアップを検討します。
たとえば、ロボット アームは、低コストで堅牢な汎用カメラだけを搭載して展開する必要がある場合があります。
しかし、高価で扱いにくいモーション キャプチャ リグや壊れやすい触覚センサーにトレーニング時間のみの特権アクセスを与えることで、パフォーマンスは向上する可能性があります。
これらの設定に対して、ターゲット ポリシーを改善するために、クリティカル、世界モデル、報酬推定器、およびトレーニング時にのみ使用されるその他の補助コンポーネントの特権センシングを効果的に活用する強化学習アプローチである「Scaffolder」を提案します。
感覚足場エージェントを評価するために、幅広い実用的なセンサー設定を検討する 10 種類の多様なシミュレートされたロボット タスクからなる新しい「S3」スイートを設計しました。
エージェントは、盲目のハードル選手を訓練するために特権的なカメラセンシング、ロボットアームが視覚的遮蔽を克服するのを助けるために特権的な能動的視覚知覚、ロボットハンドを訓練するために特権的なタッチセンサーなどを使用する必要があります。
Scaffolder は、関連する以前のベースラインを容易に上回り、特権センサーへのテスト時アクセスを持つポリシーに対しても同等のパフォーマンスを発揮することがよくあります。
ウェブサイト: https://penn-pal-lab.github.io/scaffolder/
要約(オリジナル)
We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon ‘sensory scaffolding’: observation streams that are not needed by a master might yet aid a novice learner. We consider such sensory scaffolding setups for training artificial agents. For example, a robot arm may need to be deployed with just a low-cost, robust, general-purpose camera; yet its performance may improve by having privileged training-time-only access to informative albeit expensive and unwieldy motion capture rigs or fragile tactile sensors. For these settings, we propose ‘Scaffolder’, a reinforcement learning approach which effectively exploits privileged sensing in critics, world models, reward estimators, and other such auxiliary components that are only used at training time, to improve the target policy. For evaluating sensory scaffolding agents, we design a new ‘S3’ suite of ten diverse simulated robotic tasks that explore a wide range of practical sensor setups. Agents must use privileged camera sensing to train blind hurdlers, privileged active visual perception to help robot arms overcome visual occlusions, privileged touch sensors to train robot hands, and more. Scaffolder easily outperforms relevant prior baselines and frequently performs comparably even to policies that have test-time access to the privileged sensors. Website: https://penn-pal-lab.github.io/scaffolder/
arxiv情報
著者 | Edward S. Hu,James Springer,Oleh Rybkin,Dinesh Jayaraman |
発行日 | 2024-05-23 17:57:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google