Discovering Object-Centric Generalized Value Functions From Pixels

要約

深層強化学習は、手作りの補助タスクと疑似報酬を使用しながらも、高次元の入力から有用な表現を抽出する点で大きな進歩を示しました。
制御と迅速な適応を目的としたオブジェクト中心の方法でそのような表現を自動的に学習することは、未解決の研究課題のままです。
この論文では、オブジェクトから意味のある特徴を発見し、それを時間的に一貫した「質問」関数に変換し、その後に学習された一般的な値関数を制御に活用する方法を紹介します。
当社では、当社のアプローチを他のアブレーションと並行して最先端の技術と比較し、固定環境と非固定環境の両方で競争力のあるパフォーマンスを示しています。
最後に、発見された一般価値関数も調査し、定性分析を通じて、学習された表現が解釈可能であるだけでなく、タスク全体の変化に対して不変であるオブジェクトを中心としており、迅速な適応を促進することを示します。

要約(オリジナル)

Deep Reinforcement Learning has shown significant progress in extracting useful representations from high-dimensional inputs albeit using hand-crafted auxiliary tasks and pseudo rewards. Automatically learning such representations in an object-centric manner geared towards control and fast adaptation remains an open research problem. In this paper, we introduce a method that tries to discover meaningful features from objects, translating them to temporally coherent ‘question’ functions and leveraging the subsequent learned general value functions for control. We compare our approach with state-of-the-art techniques alongside other ablations and show competitive performance in both stationary and non-stationary settings. Finally, we also investigate the discovered general value functions and through qualitative analysis show that the learned representations are not only interpretable but also, centered around objects that are invariant to changes across tasks facilitating fast adaptation.

arxiv情報

著者 Somjit Nath,Gopeshh Raaj Subbaraj,Khimya Khetarpal,Samira Ebrahimi Kahou
発行日 2023-06-27 14:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク