Foundations for Transfer in Reinforcement Learning: A Taxonomy of Knowledge Modalities

要約

現代の人工知能システムは、必要なリソースの増加、膨大なデータセット、それに伴うコンピューティングインフラへの投資によって、急速に能力を高めている。初期の成功は主に制約のある設定に焦点を当てたものであったが、基礎研究と応用における最近の進歩は、ますます一般的なシステムの構築を目指している。この進化する状況は、知識の汎化と伝達を洗練させる機会と挑戦の二重のパノラマを提示している-既存のソースからの抽出と、新しい問題に取り組むための包括的な基盤としての適応である。強化学習(RL)の領域では、知識の表現は、ダイナミクスや報酬モデル、価値関数、ポリシー、元のデータなど、様々な様式を通して現れる。この分類法は、これらのモダリティを体系的に対象とし、それらの固有の性質と、さまざまな目的や伝達メカニズムとの整合性に基づいて議論を組み立てている。可能であれば、環境との相互作用の制限、計算効率の最大化、様々な変化軸にまたがる汎化の強化といった要件に対応するアプローチを定義し、粗いガイダンスを提供することを目指している。最後に、特定の形態の移籍の普及や希少性に寄与する理由、これらのフロンティアを押し広げる背後にある固有の可能性を分析し、設計された移籍から学習された移籍への移籍の重要性を強調する。

要約(オリジナル)

Contemporary artificial intelligence systems exhibit rapidly growing abilities accompanied by the growth of required resources, expansive datasets and corresponding investments into computing infrastructure. Although earlier successes predominantly focus on constrained settings, recent strides in fundamental research and applications aspire to create increasingly general systems. This evolving landscape presents a dual panorama of opportunities and challenges in refining the generalisation and transfer of knowledge – the extraction from existing sources and adaptation as a comprehensive foundation for tackling new problems. Within the domain of reinforcement learning (RL), the representation of knowledge manifests through various modalities, including dynamics and reward models, value functions, policies, and the original data. This taxonomy systematically targets these modalities and frames its discussion based on their inherent properties and alignment with different objectives and mechanisms for transfer. Where possible, we aim to provide coarse guidance delineating approaches which address requirements such as limiting environment interactions, maximising computational efficiency, and enhancing generalisation across varying axes of change. Finally, we analyse reasons contributing to the prevalence or scarcity of specific forms of transfer, the inherent potential behind pushing these frontiers, and underscore the significance of transitioning from designed to learned transfer.

arxiv情報

著者 Markus Wulfmeier,Arunkumar Byravan,Sarah Bechtle,Karol Hausman,Nicolas Heess
発行日 2023-12-04 14:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML パーマリンク