Quantization-Free Autoregressive Action Transformer

要約

現在の変圧器ベースの模倣学習アプローチは、個別のアクション表現を導入し、結果として生じる潜在コードで自己回帰トランスデコーダーを訓練します。
ただし、初期の量子化により、アクション空間の連続構造が破損し、生成モデルの機能が制限されます。
代わりに、発生的な無限のボキャブラリー変圧器(GIVT)を、自己回帰変圧器の直接的な継続的な政策パラメーター化として活用する量子化のない方法を提案します。
これにより、模倣学習パイプラインが簡素化され、さまざまな人気のあるシミュレートされたロボットタスクで最先端のパフォーマンスを実現します。
サンプリングアルゴリズムを慎重に研究し、結果をさらに改善することにより、ポリシーの展開を強化します。

要約(オリジナル)

Current transformer-based imitation learning approaches introduce discrete action representations and train an autoregressive transformer decoder on the resulting latent code. However, the initial quantization breaks the continuous structure of the action space thereby limiting the capabilities of the generative model. We propose a quantization-free method instead that leverages Generative Infinite-Vocabulary Transformers (GIVT) as a direct, continuous policy parametrization for autoregressive transformers. This simplifies the imitation learning pipeline while achieving state-of-the-art performance on a variety of popular simulated robotics tasks. We enhance our policy roll-outs by carefully studying sampling algorithms, further improving the results.

arxiv情報

著者 Ziyad Sheebaelhamd,Michael Tschannen,Michael Muehlebach,Claire Vernade
発行日 2025-03-18 13:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク