要約
カリキュラム学習と模倣学習は、ロボット工学の分野で広く活用されています。
ただし、確率性の高い時系列データに対する制御タスクにこれらのアイデアを活用することについては、最小限の研究が行われています。
ここでは、複雑な時系列データに対する代表的な制御タスクにおけるこれらのアプローチを理論的および経験的に調査します。
私たちはデータ拡張を通じてカリキュラム学習の基本的なアイデアを実装しますが、模倣学習はオラクルからのポリシー抽出を通じて実装されます。
私たちの調査結果は、カリキュラム学習が、複雑な時系列にわたる制御タスクのパフォーマンスを向上させるための新しい方向性と考えられるべきであることを明らかにしています。
私たちの豊富なランダムシードアウトサンプルの経験とアブレーション研究は、時系列制御のためのカリキュラム学習に非常に役立ちます。
これらの発見は、ベースラインで重複するすべてのハイパーパラメータを調整し、ベースラインに利点を与えるため、特に心強いものです。
一方で、模倣学習には注意が必要であることがわかりました。
要約(オリジナル)
Curriculum learning and imitation learning have been leveraged extensively in the robotics domain. However, minimal research has been done on leveraging these ideas on control tasks over highly stochastic time-series data. Here, we theoretically and empirically explore these approaches in a representative control task over complex time-series data. We implement the fundamental ideas of curriculum learning via data augmentation, while imitation learning is implemented via policy distillation from an oracle. Our findings reveal that curriculum learning should be considered a novel direction in improving control-task performance over complex time-series. Our ample random-seed out-sample empirics and ablation studies are highly encouraging for curriculum learning for time-series control. These findings are especially encouraging as we tune all overlapping hyperparameters on the baseline — giving an advantage to the baseline. On the other hand, we find that imitation learning should be used with caution.
arxiv情報
著者 | Woosung Koh,Insu Choi,Yuntae Jang,Gimin Kang,Woo Chang Kim |
発行日 | 2023-11-22 11:42:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google