要約
自己教師あり学習は、NLP、視覚、生物学などのさまざまなコンピューティング領域に革命的なパラダイムシフトをもたらしました。
最近のアプローチには、大量のラベルなしデータに対するトランスフォーマー モデルの事前トレーニングが含まれており、下流のタスクを効率的に解決するための開始点として機能します。
強化学習の分野では、研究者らは最近、専門家の軌跡に基づいて事前トレーニングされたモデルを開発することでこれらのアプローチを適応させ、ロボット工学から推奨システムに至るまで幅広いタスクに対処できるようにしました。
ただし、既存の方法はほとんどが、特定の下流アプリケーションに合わせて調整された複雑な事前トレーニング目標に依存しています。
このペーパーでは、事前トレーニング済みアクション状態変換エージェント (PASTA) と呼ばれるモデルの包括的な調査について説明します。
私たちの研究は統一された方法論を使用しており、動作クローニング、オフライン RL、センサー障害の堅牢性、ダイナミクス変化の適応などの一般的な下流タスクの広範なセットをカバーしています。
私たちの目標は、さまざまな設計の選択肢を体系的に比較し、堅牢なモデルを構築するための貴重な洞察を実践者に提供することです。
私たちの研究の主なハイライトには、アクションおよび状態コンポーネント レベルでのトークン化、次のトークン予測などの基本的な事前トレーニング目標の使用、多様なドメインにわたるモデルの同時トレーニング、およびパラメーター効率的微調整 (PEFT) の使用が含まれます。
私たちの研究で開発されたモデルには 1,000 万未満のパラメーターが含まれており、PEFT の適用により、下流の適応中に 10,000 未満のパラメーターの微調整が可能になり、幅広いコミュニティがこれらのモデルを使用して実験を再現できるようになります。
この研究が、RL 軌道を表現するための第一原理設計の選択による変圧器の使用に関するさらなる研究を促進し、堅牢な政策学習に貢献することを願っています。
要約(オリジナル)
Self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amounts of unlabeled data, serving as a starting point for efficiently solving downstream tasks. In the realm of reinforcement learning, researchers have recently adapted these approaches by developing models pre-trained on expert trajectories, enabling them to address a wide range of tasks, from robotics to recommendation systems. However, existing methods mostly rely on intricate pre-training objectives tailored to specific downstream applications. This paper presents a comprehensive investigation of models we refer to as Pretrained Action-State Transformer Agents (PASTA). Our study uses a unified methodology and covers an extensive set of general downstream tasks including behavioral cloning, offline RL, sensor failure robustness, and dynamics change adaptation. Our goal is to systematically compare various design choices and provide valuable insights to practitioners for building robust models. Key highlights of our study include tokenization at the action and state component level, using fundamental pre-training objectives like next token prediction, training models across diverse domains simultaneously, and using parameter efficient fine-tuning (PEFT). The developed models in our study contain fewer than 10 million parameters and the application of PEFT enables fine-tuning of fewer than 10,000 parameters during downstream adaptation, allowing a broad community to use these models and reproduce our experiments. We hope that this study will encourage further research into the use of transformers with first-principles design choices to represent RL trajectories and contribute to robust policy learning.
arxiv情報
著者 | Raphael Boige,Yannis Flet-Berliac,Arthur Flajolet,Guillaume Richard,Thomas Pierrot |
発行日 | 2023-07-20 15:09:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google