Quantifying the Effect of Feedback Frequency in Interactive Reinforcement Learning for Robotic Tasks

要約

強化学習 (RL) は、ロボット制御で広く採用されるようになりました。
多くの成功にもかかわらず、データ効率が非常に低いという大きな問題が 1 つ残っています。
解決策の 1 つはインタラクティブなフィードバックであり、RL を大幅に高速化することが示されています。
その結果、さまざまな戦略が豊富にありますが、主に個別のグリッド世界と小規模な最適制御シナリオでテストされています。
文献では、どのフィードバック頻度が最適であるか、またはどの時点でフィードバックが最も有益であるかについてのコンセンサスはありません。
これらの不一致を解決するために、連続状態とアクション空間を使用して、ロボット タスクにおけるフィードバック頻度の影響を分離して定量化します。
実験には、さまざまな複雑さのロボット マニピュレーター アームの逆運動学学習が含まれます。
一見矛盾する報告された現象が、さまざまな複雑さのレベルで発生することを示します。
さらに、私たちの結果は、単一の理想的なフィードバック周波数が存在しないことを示唆しています。
むしろ、タスクにおけるエージェントの習熟度が上がるにつれて、フィードバックの頻度を変更する必要があります。

要約(オリジナル)

Reinforcement learning (RL) has become widely adopted in robot control. Despite many successes, one major persisting problem can be very low data efficiency. One solution is interactive feedback, which has been shown to speed up RL considerably. As a result, there is an abundance of different strategies, which are, however, primarily tested on discrete grid-world and small scale optimal control scenarios. In the literature, there is no consensus about which feedback frequency is optimal or at which time the feedback is most beneficial. To resolve these discrepancies we isolate and quantify the effect of feedback frequency in robotic tasks with continuous state and action spaces. The experiments encompass inverse kinematics learning for robotic manipulator arms of different complexity. We show that seemingly contradictory reported phenomena occur at different complexity levels. Furthermore, our results suggest that no single ideal feedback frequency exists. Rather that feedback frequency should be changed as the agent’s proficiency in the task increases.

arxiv情報

著者 Daniel Harnack,Julie Pivin-Bachler,Nicolás Navarro-Guerrero
発行日 2023-03-15 16:06:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO パーマリンク