要約
新しい環境でタスクのダイナミクス モデルを効率的に学習するために、同様のソース環境で学習したモデルを適応させることができます。
ただし、ダイナミクスがソース環境と大きく異なる遷移がターゲット データセットに含まれている場合、既存の適応方法は失敗する可能性があります。
たとえば、ソース環境のダイナミクスは、自由空間で操作されるロープである可能性がありますが、ターゲットのダイナミクスは、障害物の衝突と変形を含む可能性があります。
私たちの重要な洞察は、ソースとターゲットのダイナミクスが類似している領域のみにモデルの適応を集中させることで、データ効率を改善することです。
ロープの例では、衝突ダイナミクスを学習しながら自由空間ダイナミクスを適応させるよりも、自由空間ダイナミクスを適応させるために必要なデータが大幅に少なくなります。
同様のダイナミクスの領域に適応するのに効果的な適応のための新しい方法を提案します。
さらに、この適応方法を、信頼性の低いダイナミクスを使用した計画に関する以前の研究と組み合わせて、FOCUS と呼ばれるデータ効率の高いオンライン適応方法を作成します。
最初に、提案された適応方法が、シミュレートされたロープ操作と植物の水やりタスクで、同様のダイナミクスの領域で統計的に有意に低い予測誤差を達成することを示します。
次に、FOCUS がシミュレーションと現実の世界でデータ効率の高いオンライン学習を達成することを両手のロープ操作タスクで示します。
要約(オリジナル)
In order to efficiently learn a dynamics model for a task in a new environment, one can adapt a model learned in a similar source environment. However, existing adaptation methods can fail when the target dataset contains transitions where the dynamics are very different from the source environment. For example, the source environment dynamics could be of a rope manipulated in free-space, whereas the target dynamics could involve collisions and deformation on obstacles. Our key insight is to improve data efficiency by focusing model adaptation on only the regions where the source and target dynamics are similar. In the rope example, adapting the free-space dynamics requires significantly fewer data than adapting the free-space dynamics while also learning collision dynamics. We propose a new method for adaptation that is effective in adapting to regions of similar dynamics. Additionally, we combine this adaptation method with prior work on planning with unreliable dynamics to make a method for data-efficient online adaptation, called FOCUS. We first demonstrate that the proposed adaptation method achieves statistically significantly lower prediction error in regions of similar dynamics on simulated rope manipulation and plant watering tasks. We then show on a bimanual rope manipulation task that FOCUS achieves data-efficient online learning, in simulation and in the real world.
arxiv情報
著者 | Peter Mitrano,Alex LaGrassa,Oliver Kroemer,Dmitry Berenson |
発行日 | 2023-03-15 13:41:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google