要約
強化学習のためのスケーラブルで一般化可能な報酬エンジニアリング(RL)の開発は、特にロボット操作の挑戦的な領域で、汎用エージェントを作成するために重要です。
ビジョン言語モデル(VLM)を使用した報酬エンジニアリングの最近の進歩は有望であることを示していますが、それらのまばらな報酬の性質はサンプルの効率を大幅に制限します。
このペーパーでは、事前に訓練されたテキストからビデオへの拡散モデルを活用して、予測された画像シーケンスを現在の観測と比較することにより密な報酬を生成する新しい方法を紹介します。
11の複雑なロボットタスクにわたる実験結果は、Tevirがまばらな報酬やその他の最先端(SOTA)方法を活用する従来の方法を上回り、グラウンドトゥルースの環境報酬なしでサンプル効率とパフォーマンスを実現することを示しています。
複雑な環境でエージェントを効率的にガイドするTevirの能力は、ロボット操作における強化学習アプリケーションを前進させる可能性を強調しています。
要約(オリジナル)
Developing scalable and generalizable reward engineering for reinforcement learning (RL) is crucial for creating general-purpose agents, especially in the challenging domain of robotic manipulation. While recent advances in reward engineering with Vision-Language Models (VLMs) have shown promise, their sparse reward nature significantly limits sample efficiency. This paper introduces TeViR, a novel method that leverages a pre-trained text-to-video diffusion model to generate dense rewards by comparing the predicted image sequence with current observations. Experimental results across 11 complex robotic tasks demonstrate that TeViR outperforms traditional methods leveraging sparse rewards and other state-of-the-art (SOTA) methods, achieving better sample efficiency and performance without ground truth environmental rewards. TeViR’s ability to efficiently guide agents in complex environments highlights its potential to advance reinforcement learning applications in robotic manipulation.
arxiv情報
著者 | Yuhui Chen,Haoran Li,Zhennan Jiang,Haowei Wen,Dongbin Zhao |
発行日 | 2025-05-26 09:52:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google