要約
私たちは、専門家の行動を模倣することを学習し、再トレーニングせずにこれまで見たことのない領域に移行できるアルゴリズムを紹介します。
このようなアルゴリズムは、ロボット学習などの実世界のアプリケーションに非常に関連性があります。その理由は、1) 報酬関数の設計が難しい、2) あるドメインから学習したポリシーを別のドメインに展開するのが難しい、3) 現実世界での直接学習は次のいずれかです。
高価であるか、セキュリティ上の懸念により実現不可能です。
これらの制約を克服するために、AnnealedVAE を使用して Deep RL の最近の進歩を組み合わせて、もつれの解けた状態表現を学習し、敵対的なトレーニングを回避する単一の Q 関数を学習することで専門家を模倣します。
難易度や必要な知識伝達の種類に応じて 3 つの環境でこの方法の有効性を実証します。
要約(オリジナル)
We present an algorithm that learns to imitate expert behavior and can transfer to previously unseen domains without retraining. Such an algorithm is extremely relevant in real-world applications such as robotic learning because 1) reward functions are difficult to design, 2) learned policies from one domain are difficult to deploy in another domain and 3) learning directly in the real world is either expensive or unfeasible due to security concerns. To overcome these constraints, we combine recent advances in Deep RL by using an AnnealedVAE to learn a disentangled state representation and imitate an expert by learning a single Q-function which avoids adversarial training. We demonstrate the effectiveness of our method in 3 environments ranging in difficulty and the type of transfer knowledge required.
arxiv情報
著者 | Alvaro Cauderan,Gauthier Boeshertz,Florian Schwarb,Calvin Zhang |
発行日 | 2023-10-10 15:36:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google