Behavior Generation with Latent Actions

要約

ラベル付きデータセットからの複雑な動作の生成モデリングは、意思決定における長年の問題です。
言語や画像の生成とは異なり、意思決定にはモデリング アクションが必要です。モデリング アクションは、分布が多峰性である連続値ベクトルであり、キュレートされていないソースから抽出される可能性があり、生成エラーが逐次予測に複合する可能性があります。
Behavior Transformers (BeT) と呼ばれる最近のモデル クラスは、K 平均法クラスタリングを使用してアクションを離散化し、さまざまなモードをキャプチャすることでこの問題に対処します。
ただし、K-means は高次元のアクション空間や長いシーケンスに対応するのに苦労しており、勾配情報が不足しているため、BeT は長距離アクションのモデル化に問題があります。
この研究では、マルチモーダルなアクション予測、条件付き生成、および部分的な観測を処理する、行動生成のための多用途モデルであるベクトル量子化行動トランスフォーマー (VQ-BeT) を紹介します。
VQ-BeT は、階層ベクトル量子化モジュールを使用して連続アクションをトークン化することで BeT を強化します。
VQ-BeT は、シミュレートされた操作、自動運転、ロボティクスを含む 7 つの環境にわたって、BeT や拡散ポリシーなどの最先端のモデルを改良しています。
重要なのは、拡散ポリシーと比較して推論速度を 5 倍高速化しながら、動作モードをキャプチャする VQ-BeT の能力が向上していることを実証していることです。
ビデオとコードは https://sjlee.cc/vq-bet からご覧いただけます。

要約(オリジナル)

Generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, decision making requires modeling actions – continuous-valued vectors that are multimodal in their distribution, potentially drawn from uncurated sources, where generation errors can compound in sequential prediction. A recent class of models called Behavior Transformers (BeT) addresses this by discretizing actions using k-means clustering to capture different modes. However, k-means struggles to scale for high-dimensional action spaces or long sequences, and lacks gradient information, and thus BeT suffers in modeling long-range actions. In this work, we present Vector-Quantized Behavior Transformer (VQ-BeT), a versatile model for behavior generation that handles multimodal action prediction, conditional generation, and partial observations. VQ-BeT augments BeT by tokenizing continuous actions with a hierarchical vector quantization module. Across seven environments including simulated manipulation, autonomous driving, and robotics, VQ-BeT improves on state-of-the-art models such as BeT and Diffusion Policies. Importantly, we demonstrate VQ-BeT’s improved ability to capture behavior modes while accelerating inference speed 5x over Diffusion Policies. Videos and code can be found https://sjlee.cc/vq-bet

arxiv情報

著者 Seungjae Lee,Yibin Wang,Haritheja Etukuru,H. Jin Kim,Nur Muhammad Mahi Shafiullah,Lerrel Pinto
発行日 2024-06-28 04:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク