Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

要約

アクションチャンキングとして知られる、中間の再計画を行わずに一連のアクションを予測して実行することは、人間のデモンストレーションからロボットが学習する際に使用されることが増えています。
しかし、学習されたポリシーに対するその影響は依然として不可解です。いくつかの研究では、優れたパフォーマンスを達成するためのその重要性が強調されていますが、他の研究では有害な影響が観察されています。
この論文では、まず、学習者とデモンストレーターの間の相違を分析することにより、アクション チャンキングの役割を詳しく分析します。
アクション チャンクが長いほど、チャンク内のより多くの過去の状態とアクションを考慮することで、ポリシーが時間的な依存関係をより適切に捕捉できることがわかりました。
ただし、この利点には、最近の状態の観測が少ないため、確率的環境での誤差が悪化するという代償が伴います。
これに対処するために、アクション チャンクと閉ループ操作を橋渡しするテスト時推論アルゴリズムである双方向デコーディング (BID) を提案します。
BID は各タイム ステップで複数の予測をサンプリングし、次の 2 つの基準に基づいて最適な予測を検索します。(i) 後方コヒーレンス。以前の決定と一致するサンプルを優先します。(ii) 順方向コントラスト。より強力なポリシーの出力に近いサンプルを優先します。
弱い政策の政策とは程遠い。
BID は、アクション チャンク内およびアクション チャンク間での意思決定を結合することにより、確率的環境での適応的な再計画を可能にしながら、拡張シーケンスにわたる時間的一貫性を強化します。
実験結果は、BID が 7 つのシミュレーション ベンチマークと 2 つの現実世界のタスクにわたって、2 つの最先端の生成ポリシーによる従来の閉ループ操作を大幅に上回るパフォーマンスを示すことを示しています。

要約(オリジナル)

Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. However, its effects on learned policies remain puzzling: some studies highlight its importance for achieving strong performance, while others observe detrimental effects. In this paper, we first dissect the role of action chunking by analyzing the divergence between the learner and the demonstrator. We find that longer action chunks enable a policy to better capture temporal dependencies by taking into account more past states and actions within the chunk. However, this advantage comes at the cost of exacerbating errors in stochastic environments due to fewer observations of recent states. To address this, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples aligned with previous decisions, (ii) forward contrast, which favors samples close to outputs of a stronger policy and distant from those of a weaker policy. By coupling decisions within and across action chunks, BID enhances temporal consistency over extended sequences while enabling adaptive replanning in stochastic environments. Experimental results show that BID substantially outperforms conventional closed-loop operations of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks.

arxiv情報

著者 Yuejiang Liu,Jubayer Ibn Hamid,Annie Xie,Yoonho Lee,Maximilian Du,Chelsea Finn
発行日 2024-08-30 15:39:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク