要約
Vision-Language-active(VLA)モデルなど、Deep Neural Network(DNN)ベースのポリシーモデルは、マルチモーダル入力からの複雑な意思決定の自動化に優れています。
ただし、これらのモデルをスケーリングすると、計算オーバーヘッドが大幅に増加し、ロボット操作や自律運転などのリソース制約のある設定での展開が複雑になります。
これに対処するために、量子化を認識したトレーニングとミッションクリティカルな状態の選択的損失強調戦略を組み合わせた顕著性を認識した量子化された模倣学習(SQIL)を提案します。
これらの状態を顕著性スコアを介して特定し、トレーニング損失でそれらを強調することにより、SQILは低ビットの精度の下で決定の忠実度を保持します。
SQILの一般化機能は、環境のバリエーション、現実世界のタスク、およびクロスドメインタスク(自動運転、物理シミュレーション)を備えた広範なシミュレーションベンチマーク全体で検証し、一貫して全文パフォーマンスを回復します。
特に、ロボット操作用の4ビット重量定量化されたVLAモデルは、最小限の精度損失で最大2.5倍のスピードアップと2.5倍のエネルギー節約を達成します。
これらの結果は、リソース制限デバイスに大規模なILベースのポリシーモデルを効率的に展開するSQILの可能性を強調しています。
要約(オリジナル)
Deep neural network (DNN)-based policy models, such as vision-language-action (VLA) models, excel at automating complex decision-making from multi-modal inputs. However, scaling these models greatly increases computational overhead, complicating deployment in resource-constrained settings like robot manipulation and autonomous driving. To address this, we propose Saliency-Aware Quantized Imitation Learning (SQIL), which combines quantization-aware training with a selective loss-weighting strategy for mission-critical states. By identifying these states via saliency scores and emphasizing them in the training loss, SQIL preserves decision fidelity under low-bit precision. We validate SQIL’s generalization capability across extensive simulation benchmarks with environment variations, real-world tasks, and cross-domain tasks (self-driving, physics simulation), consistently recovering full-precision performance. Notably, a 4-bit weight-quantized VLA model for robotic manipulation achieves up to 2.5x speedup and 2.5x energy savings on an edge GPU with minimal accuracy loss. These results underline SQIL’s potential for efficiently deploying large IL-based policy models on resource-limited devices.
arxiv情報
著者 | Seongmin Park,Hyungmin Kim,Sangwoo kim,Wonseok Jeon,Juyoung Yang,Byeongwook Jeon,Yoonseon Oh,Jungwook Choi |
発行日 | 2025-05-21 09:35:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google