要約
強化された最適化ランドスケープを備えた暗黙的把握ポリシーである dGrasp を紹介します。
このランドスケープは、NeRF に基づいた把握値関数によって定義されます。
この機能を表すニューラル ネットワークは、把握デモンストレーションでトレーニングされています。
トレーニング中に、補助損失を使用して、このネットワークの重みの更新だけでなく、最適化ランドスケープの傾きがどのように変化するかの更新もガイドします。
この損失は、実証された把握軌道と地形の勾配に基づいて計算されます。
二次最適化では、軌跡から貴重な情報を取り込み、暗黙的なポリシーの最適化プロセスを促進します。
実験では、この補助損失を採用すると、シミュレーションにおけるポリシーのパフォーマンスが向上するだけでなく、現実世界へのゼロショット転送も向上することが実証されています。
要約(オリジナル)
We present dGrasp, an implicit grasp policy with an enhanced optimization landscape. This landscape is defined by a NeRF-informed grasp value function. The neural network representing this function is trained on grasp demonstrations. During training, we use an auxiliary loss to guide not only the weight updates of this network but also the update how the slope of the optimization landscape changes. This loss is computed on the demonstrated grasp trajectory and the gradients of the landscape. With second order optimization, we incorporate valuable information from the trajectory as well as facilitate the optimization process of the implicit policy. Experiments demonstrate that employing this auxiliary loss improves policies’ performance in simulation as well as their zero-shot transfer to the real-world.
arxiv情報
著者 | Gergely Sóti,Xi Huang,Christian Wurll,Gergely Sóti |
発行日 | 2024-06-14 11:35:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google