要約
多様なデモンストレーションデータセットで訓練された大規模な汎用ロボットポリシーは、さまざまなシーンのさまざまなロボットを制御することと、操作スキルの幅広いレパートリーを獲得するために、非常に効果的であることが示されています。
ただし、そのようなポリシーがトレーニングされているデータは一般に混合品質です。タスクを完全に実行する可能性は低いだけでなく、データセットが大きいほど、最高品質の例のみをキュレートすることが難しくなります。
また、ある実施形態からの最適なデータが、別の実施形態でトレーニングするための最適なデータがいかに不明であるかは不明のままです。
このホワイトペーパーでは、オフラインRLを介して学習した値関数に従ってアクションを再ランクすることにより、展開時間にそのようなジェネラリストロボットポリシーのパフォーマンスを強化する一般的かつ広く適用可能なアプローチを提示します。
このアプローチは、バリューガイド付きポリシーステアリング(V-GPS)と呼ばれ、ポリシーの重みに微調整したりアクセスすることさえすることなく、幅広い異なるジェネラリストポリシーと互換性があります。
同じ値関数は、異なるデータセットでトレーニングされていても、異なるアーキテクチャを備えた5つの異なる最先端のポリシーのパフォーマンスを改善できることを示しています。
コードとビデオは、https://nakamotoo.github.io/v-gpsにあります
要約(オリジナル)
Large, general-purpose robotic policies trained on diverse demonstration datasets have been shown to be remarkably effective both for controlling a variety of robots in a range of different scenes, and for acquiring broad repertoires of manipulation skills. However, the data that such policies are trained on is generally of mixed quality — not only are human-collected demonstrations unlikely to perform the task perfectly, but the larger the dataset is, the harder it is to curate only the highest quality examples. It also remains unclear how optimal data from one embodiment is for training on another embodiment. In this paper, we present a general and broadly applicable approach that enhances the performance of such generalist robot policies at deployment time by re-ranking their actions according to a value function learned via offline RL. This approach, which we call Value-Guided Policy Steering (V-GPS), is compatible with a wide range of different generalist policies, without needing to fine-tune or even access the weights of the policy. We show that the same value function can improve the performance of five different state-of-the-art policies with different architectures, even though they were trained on distinct datasets, attaining consistent performance improvement on multiple robotic platforms across a total of 12 tasks. Code and videos can be found at: https://nakamotoo.github.io/V-GPS
arxiv情報
著者 | Mitsuhiko Nakamoto,Oier Mees,Aviral Kumar,Sergey Levine |
発行日 | 2025-02-24 21:05:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google