Progressive-Resolution Policy Distillation: Leveraging Coarse-Resolution Simulation for Time-Efficient Fine-Resolution Policy Learning

要約

土工や建設では、掘削機はさまざまな土壌条件が混在する大きな岩に遭遇することが多く、熟練したオペレーターが必要です。
本稿では、岩盤掘削シミュレータによる強化学習(RL)を用いた自律掘削を実現するためのフレームワークを紹介します。
シミュレーションでは、土壌空間全体の粒子サイズ/数によって解像度を定義できます。
高解像度シミュレーションは現実世界の動作を厳密に模倣しますが、多大な計算時間と困難なサンプル収集を必要とします。一方、粗い解像度シミュレーションはより高速なサンプル収集を可能にしますが、現実世界の動作からは逸脱します。
両方の解像度の利点を組み合わせるために、粗い解像度のシミュレーションで開発されたポリシーを、高解像度のシミュレーションでの事前トレーニングに使用することを検討します。
この目的を達成するために、我々は、段階的解像度ポリシー蒸留(PRPD)と呼ばれる新しいポリシー学習フレームワークを提案します。これは、ポリシー転送の失敗につながる可能性のあるドメインギャップを回避するために、保守的なポリシー転送を伴ういくつかの中解像度シミュレーションを通じてポリシーを段階的に転送します。
岩石掘削シミュレーターと 9 つの現実世界の岩石環境での検証では、PRPD がサンプリング時間を 1/7 未満に短縮しながら、高解像度シミュレーションでのポリシー学習によって達成されるタスク成功率と同等のタスク成功率を維持できることが実証されました。

要約(オリジナル)

In earthwork and construction, excavators often encounter large rocks mixed with various soil conditions, requiring skilled operators. This paper presents a framework for achieving autonomous excavation using reinforcement learning (RL) through a rock excavation simulator. In the simulation, resolution can be defined by the particle size/number in the whole soil space. Fine-resolution simulations closely mimic real-world behavior but demand significant calculation time and challenging sample collection, while coarse-resolution simulations enable faster sample collection but deviate from real-world behavior. To combine the advantages of both resolutions, we explore using policies developed in coarse-resolution simulations for pre-training in fine-resolution simulations. To this end, we propose a novel policy learning framework called Progressive-Resolution Policy Distillation (PRPD), which progressively transfers policies through some middle-resolution simulations with conservative policy transfer to avoid domain gaps that could lead to policy transfer failure. Validation in a rock excavation simulator and nine real-world rock environments demonstrated that PRPD reduced sampling time to less than 1/7 while maintaining task success rates comparable to those achieved through policy learning in a fine-resolution simulation.

arxiv情報

著者 Yuki Kadokawa,Hirotaka Tahara,Takamitsu Matsubara
発行日 2024-12-10 12:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク