Composing Option Sequences by Adaptation: Initial Results

要約

現実世界の設定でロボットを操作するには、多くの場合、目的のタスクを達成するためにポリシーを実行するシーケンスを変更するなど、ロボットの動作を現在の状況に適応させる必要があります。
ただし、問題はありますが、ピック アンド プレイス タスクを実行するための 5 つの深い RL オプションの新しいシーケンスを構成することは、たとえ開始条件と終了条件が一致していても、正常に完了する可能性が低いことを示しています。
シーケンスがアプリオリに成功するかどうかを判断するためのフレームワークを提案し、成功しない場合にオプションを適応してシーケンスに成功させる 3 つのアプローチを検討します。
重要なのは、私たちの適応方法では、オプションがトレーニングされるポイントの実際のサブセット、またはオプションが終了する場所を考慮します。(1) 最初のオプションが終了する場所から開始するように 2 番目のオプションをトレーニングします。
(2) 最初のオプションをトレーニングして、2 番目のオプションが開始する重心に到達するようにします。
(3) 最初のオプションをトレーニングして、2 番目のオプションの開始位置の中央値に到達するようにします。
私たちの結果は、私たちのフレームワークと適応方法が、新しいシーケンスで機能するようにオプションを適応させるのに有望であることを示しています。

要約(オリジナル)

Robot manipulation in real-world settings often requires adapting the robot’s behavior to the current situation, such as by changing the sequences in which policies execute to achieve the desired task. Problematically, however, we show that composing a novel sequence of five deep RL options to perform a pick-and-place task is unlikely to successfully complete, even if their initiation and termination conditions align. We propose a framework to determine whether sequences will succeed a priori, and examine three approaches that adapt options to sequence successfully if they will not. Crucially, our adaptation methods consider the actual subset of points that the option is trained from or where it ends: (1) trains the second option to start where the first ends; (2) trains the first option to reach the centroid of where the second starts; and (3) trains the first option to reach the median of where the second starts. Our results show that our framework and adaptation methods have promise in adapting options to work in novel sequences.

arxiv情報

著者 Charles A. Meehan,Paul Rademacher,Mark Roberts,Laura M. Hiatt
発行日 2024-09-12 16:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク