Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

要約

アクションチャンキングとして知られる、中間の再計画を行わずに一連のアクションを予測して実行することは、人間のデモンストレーションからロボットが学習する際に使用されることが増えています。
しかし、学習されたポリシーに対する報告された効果には一貫性がありません。一部の研究では、これが優れた結果を達成するために重要であることがわかり、他の研究ではパフォーマンスの低下が観察されています。
この論文では、まずアクションのチャンク化が学習者とデモンストレーターの間の相違にどのような影響を与えるかを詳しく分析します。
アクションのチャンク化により、学習者はデモンストレーションでの時間的依存関係をより適切に把握できるようになりますが、その代償として確率的環境での反応性が低下することがわかりました。
このトレードオフに対処するために、アクション チャンクと閉ループ操作をブリッジするテスト時推論アルゴリズムである双方向デコーディング (BID) を提案します。
BID は各タイム ステップで複数の予測をサンプリングし、次の 2 つの基準に基づいて最適な予測を検索します。(i) 逆方向コヒーレンス。以前の決定と一致するサンプルを優先します。
(ii) フォワード コントラスト。将来の計画の可能性が高いサンプルを探します。
BID は、アクション チャンク内およびアクション チャンク間で意思決定を結合することで、予期しない変更への対応性を維持しながら、長期にわたる一貫性を促進します。
実験結果は、BID が 7 つのシミュレーション ベンチマークと 2 つの現実世界のタスクにわたって 2 つの最先端の生成ポリシーのパフォーマンスを向上させることを示しています。
コードとビデオは https://bid-robot.github.io で入手できます。

要約(オリジナル)

Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. Yet, its reported effects on the learned policy are inconsistent: some studies find it crucial for achieving strong results, while others observe decreased performance. In this paper, we first dissect how action chunking impacts the divergence between a learner and a demonstrator. We find that action chunking allows the learner to better capture the temporal dependencies in demonstrations but at the cost of reduced reactivity in stochastic environments. To address this tradeoff, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples that align with previous decisions; (ii) forward contrast, which seeks samples of high likelihood for future plans. By coupling decisions within and across action chunks, BID promotes consistency over time while maintaining reactivity to unexpected changes. Experimental results show that BID boosts the performance of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. Code and videos are available at https://bid-robot.github.io.

arxiv情報

著者 Yuejiang Liu,Jubayer Ibn Hamid,Annie Xie,Yoonho Lee,Maximilian Du,Chelsea Finn
発行日 2024-10-21 17:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク