Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

要約

アクション・チャンキングとして知られる、中間的な再計画を伴わない一連のアクションの予測と実行は、人間の実演からロボットを学習する際にますます使用されるようになってきている。しかし、学習された方針に対するチャンキングの効果は一貫していない。ある研究では、チャンキングは強力な結果を得るために重要であるとされているが、他の研究では性能の低下が観察されている。本論文では、まず、アクションチャンキングが学習者と実演者の間の乖離にどのような影響を与えるかを明らかにする。アクションチャンキングにより、学習者はデモの時間的依存性をより良く捉えることができるが、その代償として確率的環境における反応性が低下することを発見した。このトレードオフに対処するため、アクションチャンキングと閉ループ演算の橋渡しをするテスト時推論アルゴリズムである双方向デコーディング(BID)を提案する。BIDは各時間ステップで複数の予測をサンプリングし、2つの基準に基づいて最適なものを探索する:(i)バックワード・コヒーレンス(過去の決定と一致するサンプルを優先する)、(ii)フォワード・コントラスト(将来の計画の可能性が高いサンプルを求める)。アクションチャンク内とアクションチャンク間の意思決定を結合することで、BIDは予期せぬ変化への反応性を維持しながら、時間的な一貫性を促進する。実験結果は、7つのシミュレーションベンチマークと2つの実世界タスクにおいて、BIDが2つの最先端の生成ポリシーのパフォーマンスを向上させることを示している。コードとビデオはhttps://bid-robot.github.io。

要約(オリジナル)

Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. Yet, its reported effects on the learned policy are inconsistent: some studies find it crucial for achieving strong results, while others observe decreased performance. In this paper, we first dissect how action chunking impacts the divergence between a learner and a demonstrator. We find that action chunking allows the learner to better capture the temporal dependencies in demonstrations but at the cost of reduced reactivity in stochastic environments. To address this tradeoff, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples that align with previous decisions; (ii) forward contrast, which seeks samples of high likelihood for future plans. By coupling decisions within and across action chunks, BID promotes consistency over time while maintaining reactivity to unexpected changes. Experimental results show that BID boosts the performance of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. Code and videos are available at https://bid-robot.github.io.

arxiv情報

著者 Yuejiang Liu,Jubayer Ibn Hamid,Annie Xie,Yoonho Lee,Maximilian Du,Chelsea Finn
発行日 2024-12-03 06:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク