要約
生成スキルの習得により、具体化されたエージェントは、大規模な意思決定モデルの進歩に不可欠な、制御スキルのスケーラブルで進化するレパートリーを積極的に学習できます。
事前のアプローチは、多くの場合、ジェネラリストのエージェント(LLMなど)からの監督信号に依存していますが、複雑な3D環境での有効性は不明のままです。
徹底的な評価には、かなりの計算コストが発生し、スキル学習の効率を大幅に妨げます。
数学的推論の検証モデルにおける最近の成功に触発され、リアルタイム検証原則を具体化されたスキル学習に体系的に統合するフレームワークであるVergsa(生成スキル習得の具体化された推論の検証)を提案します。
Vergsaは、1)数学的推論の検証から、コンテキストに関連するタスクをプロンプトに動的に組み込み、サブタスクと全体的なタスクの両方の成功メトリックを定義することにより、具体化された学習への具体化された学習へのシームレスな拡張、および2)貢献したシグネールを最終的に最終化するために、密集した報酬の兆候を確立します。
私たちの知る限り、このアプローチは、検証駆動型の生成スキル獲得のための最初の包括的なトレーニングデータセットを構成し、骨の折れる手動報酬エンジニアリングを排除します。
実験では、アプローチの有効性を検証します。1)模範タスクプールにより、平均タスクの成功率が21%改善され、2)検証モデルは、新しいタスクで24%、遭遇したタスクで36%を高め、3)検証品質におけるLLM-AS-A-Judgeベースラインを上回る。
要約(オリジナル)
Generative skill acquisition enables embodied agents to actively learn a scalable and evolving repertoire of control skills, crucial for the advancement of large decision models. While prior approaches often rely on supervision signals from generalist agents (e.g., LLMs), their effectiveness in complex 3D environments remains unclear; exhaustive evaluation incurs substantial computational costs, significantly hindering the efficiency of skill learning. Inspired by recent successes in verification models for mathematical reasoning, we propose VERGSA (Verifying Embodied Reasoning in Generative Skill Acquisition), a framework that systematically integrates real-time verification principles into embodied skill learning. VERGSA establishes 1) a seamless extension from verification of mathematical reasoning into embodied learning by dynamically incorporating contextually relevant tasks into prompts and defining success metrics for both subtasks and overall tasks, and 2) an automated, scalable reward labeling scheme that synthesizes dense reward signals by iteratively finalizing the contribution of scene configuration and subtask learning to overall skill acquisition. To the best of our knowledge, this approach constitutes the first comprehensive training dataset for verification-driven generative skill acquisition, eliminating arduous manual reward engineering. Experiments validate the efficacy of our approach: 1) the exemplar task pool improves the average task success rates by 21%, 2) our verification model boosts success rates by 24% for novel tasks and 36% for encountered tasks, and 3) outperforms LLM-as-a-Judge baselines in verification quality.
arxiv情報
著者 | Bo Yue,Shuqi Guo,Kaiyu Hu,Chujiao Wang,Benyou Wang,Kui Jia,Guiliang Liu |
発行日 | 2025-05-16 12:19:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google