BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

要約

B-SPLINEエンコードされたアクションシーケンストークン化装置（Beast）を提示します。これは、B-Splinesを使用してコンパクトディスクリートまたは連続トークンにアクションシーケンスをコードする新しいアクショントークン剤です。
ベクターの量子化またはバイトペアのエンコードに基づく既存のアクショントークナーとは対照的に、ビーストは個別のトークナイザートレーニングを必要とせず、一貫して均一な長さのトークンを生成し、並列デコードを介して高速アクションシーケンス生成を可能にします。
B-Splineの定式化を活用して、Beastは本質的に隣接するセグメント間の不連続性なしに滑らかな軌跡を生成することを本質的に保証します。
ビーストは、連続トークンを備えた変分自動エンコーダー（VAE）、離散トークンを備えたデコーダーのみの変圧器、エンコーダーデコードアーキテクチャを備えた前処理されたビジョン言語モデルであるFlorence-2を備えた3つの異なるモデルアーキテクチャと統合することにより、獣を広範囲に評価します。
166のシミュレートされたタスクで構成される3つの確立されたベンチマークと、合計8つの現実世界のタスクを持つ3つの異なるロボット設定でビーストを評価します。
実験結果は、獣（i）がトレーニングと推論の計算コストの両方を大幅に削減し、（ii）連続制御タスクに適したスムーズで高周波制御信号を一貫して生成することを示していますが、（iii）は、最先端の方法と比較して競争力のあるタスクの成功率を確実に達成します。

要約(オリジナル)

We present the B-spline Encoded Action Sequence Tokenizer (BEAST), a novel action tokenizer that encodes action sequences into compact discrete or continuous tokens using B-splines. In contrast to existing action tokenizers based on vector quantization or byte pair encoding, BEAST requires no separate tokenizer training and consistently produces tokens of uniform length, enabling fast action sequence generation via parallel decoding. Leveraging our B-spline formulation, BEAST inherently ensures generating smooth trajectories without discontinuities between adjacent segments. We extensively evaluate BEAST by integrating it with three distinct model architectures: a Variational Autoencoder (VAE) with continuous tokens, a decoder-only Transformer with discrete tokens, and Florence-2, a pretrained Vision-Language Model with an encoder-decoder architecture, demonstrating BEAST’s compatibility and scalability with large pretrained models. We evaluate BEAST across three established benchmarks consisting of 166 simulated tasks and on three distinct robot settings with a total of 8 real-world tasks. Experimental results demonstrate that BEAST (i) significantly reduces both training and inference computational costs, and (ii) consistently generates smooth, high-frequency control signals suitable for continuous control tasks while (iii) reliably achieves competitive task success rates compared to state-of-the-art methods.

arxiv情報

著者	Hongyi Zhou,Weiran Liao,Xi Huang,Yucheng Tang,Fabian Otto,Xiaogang Jia,Xinkai Jiang,Simon Hilber,Ge Li,Qian Wang,Ömer Erdinç Yağmurlu,Nils Blank,Moritz Reuss,Rudolf Lioutikov
発行日	2025-06-06 13:26:16+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー