要約
深層強化学習 (DRL) に関する最近の研究では、実行されたアクションに関する明示的な情報が不足しているオフライン データから、優れたポリシーに関するアルゴリズム情報を抽出できることが指摘されています。
たとえば、人間やロボットのビデオは、一連の報酬を与えるアクションに関する多くの暗黙的な情報を伝える可能性がありますが、そのようなビデオを視聴することで利益を得ようとする DRL マシンは、まず、関連する状態/アクション/報酬を識別して認識するために自ら学習する必要があります。
Deep State Identifier と呼ばれる新しいメソッドは、グラウンド トゥルースの注釈に依存せずに、ビデオとしてエンコードされたエピソードからのリターンを予測することを学習します。
次に、一種のマスクベースの感度分析を使用して、重要な臨界状態を抽出/特定します。
広範な実験により、エージェントの動作を理解して改善するための私たちの方法の可能性が示されています。
ソース コードと生成されたデータセットは、https://github.com/AI-Initiative-KAUST/VideoRLCS で入手できます。
要約(オリジナル)
Recent work on deep reinforcement learning (DRL) has pointed out that algorithmic information about good policies can be extracted from offline data which lack explicit information about executed actions. For example, videos of humans or robots may convey a lot of implicit information about rewarding action sequences, but a DRL machine that wants to profit from watching such videos must first learn by itself to identify and recognize relevant states/actions/rewards. Without relying on ground-truth annotations, our new method called Deep State Identifier learns to predict returns from episodes encoded as videos. Then it uses a kind of mask-based sensitivity analysis to extract/identify important critical states. Extensive experiments showcase our method’s potential for understanding and improving agent behavior. The source code and the generated datasets are available at https://github.com/AI-Initiative-KAUST/VideoRLCS.
arxiv情報
著者 | Haozhe Liu,Mingchen Zhuge,Bing Li,Yuhui Wang,Francesco Faccio,Bernard Ghanem,Jürgen Schmidhuber |
発行日 | 2023-08-15 14:21:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google