要約
タイトル:ピクセルからオブジェクト中心の一般化価値関数を発見する方法
要約:
– 深層強化学習は、手作業の補助課題や疑似報酬を使用して、高次元の入力から有用な表現を抽出することができます。
– しかし、制御と迅速な適応を目的としたオブジェクト中心の方法で、これらの表現を自動的に学習することは未解決の課題です。
– 本論文では、オブジェクトから意味のある特徴を見つけ、それらを時間的に整合性のある「質問」関数に変換し、制御に利用する方法を紹介しています。
– 状態遷移の有無に関わらず、最新の技術や他の削除法と比較して、私たちのアプローチが競争力のあるパフォーマンスを示すことを示します。
– 最後に、発見された一般価値関数を調査し、定性的な分析によって、学習された表現が解釈可能であり、タスク間で変化しないオブジェクトを中心にしているため、迅速な適応に役立つことを示します。
要約(オリジナル)
Deep Reinforcement Learning has shown significant progress in extracting useful representations from high-dimensional inputs albeit using hand-crafted auxiliary tasks and pseudo rewards. Automatically learning such representations in an object-centric manner geared towards control and fast adaptation remains an open research problem. In this paper, we introduce a method that tries to discover meaningful features from objects, translating them to temporally coherent ‘question’ functions and leveraging the subsequent learned general value functions for control. We compare our approach with state-of-the-art techniques alongside other ablations and show competitive performance in both stationary and non-stationary settings. Finally, we also investigate the discovered general value functions and through qualitative analysis show that the learned representations are not only interpretable but also, centered around objects that are invariant to changes across tasks facilitating fast adaptation.
arxiv情報
| 著者 | Somjit Nath,Gopeshh Raaj Subbaraj,Khimya Khetarpal,Samira Ebrahimi Kahou | 
| 発行日 | 2023-04-27 00:34:24+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
