要約
強化学習 (RL) は、逐次的な意思決定プロセスで最適なポリシーを見つけるための強力なツールです。
ただし、ディープ RL 手法には 2 つの弱点があります。1 つは、実際の RL 問題に必要なエージェントの経験量を収集するのに法外にコストがかかること、もう 1 つは学習されたポリシーがトレーニング配布外のタスクに対して一般化が不十分であることです。
これらの問題を軽減するために、教師からの Q 値推定値がオートマトンの形式で低次元表現に蒸留される、神経記号転移学習の形式であるオートマトン蒸留を導入します。
次に、Q 値推定値を生成するための 2 つの方法を提案します。1 つは事前知識に基づいて構築された抽象的なマルコフ決定プロセスを推論する静的転送、もう 1 つは教師のディープ Q ネットワーク (DQN) から記号情報が抽出される動的転送です。
いずれかの方法で得られた Q 値推定値は、修正された DQN 損失関数を介してターゲット環境で学習をブートストラップするために使用されます。
既存のオートマトンベースの転送方法のいくつかの故障モードをリストし、静的および動的オートマトンの蒸留の両方により、さまざまな意思決定タスクに最適なポリシーを見つけるのに必要な時間が短縮されることを示します。
要約(オリジナル)
Reinforcement learning (RL) is a powerful tool for finding optimal policies in sequential decision processes. However, deep RL methods suffer from two weaknesses: collecting the amount of agent experience required for practical RL problems is prohibitively expensive, and the learned policies exhibit poor generalization on tasks outside of the training distribution. To mitigate these issues, we introduce automaton distillation, a form of neuro-symbolic transfer learning in which Q-value estimates from a teacher are distilled into a low-dimensional representation in the form of an automaton. We then propose two methods for generating Q-value estimates: static transfer, which reasons over an abstract Markov Decision Process constructed based on prior knowledge, and dynamic transfer, where symbolic information is extracted from a teacher Deep Q-Network (DQN). The resulting Q-value estimates from either method are used to bootstrap learning in the target environment via a modified DQN loss function. We list several failure modes of existing automaton-based transfer methods and demonstrate that both static and dynamic automaton distillation decrease the time required to find optimal policies for various decision tasks.
arxiv情報
著者 | Suraj Singireddy,Andre Beckus,George Atia,Sumit Jha,Alvaro Velasquez |
発行日 | 2023-10-29 19:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google