要約
この研究では、人間によるデモンストレーションと自律的に収集されたデータの両方を活用できる、大規模なオフライン データセットからマルチタスク ポリシーをトレーニングするためのスケーラブルな強化学習方法を紹介します。
私たちの方法では、Transformer を使用して、オフラインの時間差分バックアップによってトレーニングされた Q 関数のスケーラブルな表現を提供します。
したがって、この方法を Q トランスと呼びます。
各アクション次元を離散化し、各アクション次元の Q 値を個別のトークンとして表すことにより、Q 学習に効果的な大容量シーケンス モデリング手法を適用できます。
我々は、オフライン RL トレーニングで優れたパフォーマンスを可能にするいくつかの設計上の決定を提示し、大規模で多様な現実世界のロボット操作タスク スイートにおいて、Q-Transformer が以前のオフライン RL アルゴリズムや模倣学習技術よりも優れたパフォーマンスを発揮することを示します。
プロジェクトの Web サイトとビデオは https://qtransformer.github.io でご覧いただけます。
要約(オリジナル)
In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project’s website and videos can be found at https://qtransformer.github.io
arxiv情報
| 著者 | Yevgen Chebotar,Quan Vuong,Alex Irpan,Karol Hausman,Fei Xia,Yao Lu,Aviral Kumar,Tianhe Yu,Alexander Herzog,Karl Pertsch,Keerthana Gopalakrishnan,Julian Ibarz,Ofir Nachum,Sumedh Sontakke,Grecia Salazar,Huong T Tran,Jodilyn Peralta,Clayton Tan,Deeksha Manjunath,Jaspiar Singht,Brianna Zitkovich,Tomas Jackson,Kanishka Rao,Chelsea Finn,Sergey Levine | 
| 発行日 | 2023-10-17 07:00:46+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
