TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

要約

ビジョン言語アクション(VLA)モデルの最近の進歩により、大規模なデータセットで事前に処理されると、多様なシーン、タスク、ロボットプラットフォームにわたって強力な一般化機能が実証されています。
ただし、これらのモデルは、新しい環境でタスク固有の微調整を依然として必要とします。これは、静的軌道データセットを使用して、監視された微調整(SFT)にほぼ依存するプロセスです。
このようなアプローチは、ロボットが環境と対話することも、ライブ実行からのフィードバックを活用することもできません。
また、彼らの成功は、収集された軌跡のサイズと品質に大きく依存しています。
Rehnection Learning(RL)は、閉ループの相互作用を有効にし、学習ポリシーをタスクの目的と直接調整することにより、有望な代替手段を提供します。
この作業では、GRPOのアイデアからインスピレーションを得て、軌道ごとのグループ相対ポリシー最適化(TGRPO)メソッドを提案します。
ステップレベルと軌道レベルのアドバンテージシグナルを融合させることにより、この方法によりGRPOのグループレベルのアドバンテージ推定が改善され、これによりアルゴリズムがVLAのオンライン強化学習トレーニングにより適しています。
Libero-Objectベンチマークからの10の操作タスクの実験結果は、TGRPOが一貫してさまざまなベースラインメソッドを上回ることを示しています。
ソースコードは、https://github.com/hahans/tgrpoで入手できます

要約(オリジナル)

Recent advances in Vision-Language-Action (VLA) model have demonstrated strong generalization capabilities across diverse scenes, tasks, and robotic platforms when pretrained at large-scale datasets. However, these models still require task-specific fine-tuning in novel environments, a process that relies almost exclusively on supervised fine-tuning (SFT) using static trajectory datasets. Such approaches neither allow robot to interact with environment nor do they leverage feedback from live execution. Also, their success is critically dependent on the size and quality of the collected trajectories. Reinforcement learning (RL) offers a promising alternative by enabling closed-loop interaction and aligning learned policies directly with task objectives. In this work, we draw inspiration from the ideas of GRPO and propose the Trajectory-wise Group Relative Policy Optimization (TGRPO) method. By fusing step-level and trajectory-level advantage signals, this method improves GRPO’s group-level advantage estimation, thereby making the algorithm more suitable for online reinforcement learning training of VLA. Experimental results on ten manipulation tasks from the libero-object benchmark demonstrate that TGRPO consistently outperforms various baseline methods, capable of generating more robust and efficient policies across multiple tested scenarios. Our source codes are available at: https://github.com/hahans/TGRPO

arxiv情報

著者 Zengjue Chen,Runliang Niu,He Kong,Qi Wang
発行日 2025-06-10 04:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク