The intrinsic motivation of reinforcement and imitation learning for sequential tasks

要約

発達認知ロボット工学の分野におけるこの研究は、連続タスクを含む複数のタスクを家庭教師からの指導を受けて学習する学習エージェントの内発的動機付けのモデルを使用して、強化学習と模倣学習の間の新しい領域を考案することを目的としています。
主な貢献は、学習エージェントが単純または連続タスクの学習戦略を積極的に選択することにより、学習カリキュラムを自動的に選択するための経験的進歩に基づいた内発的動機づけの共通の定式化を提案したことです。つまり、自律探索と模倣学習の間でどのタスクを学習するかです。
、低レベルのアクションまたはタスクの分解の間、複数の講師の間。
独自性は、家庭教師が提供するデータから受動的に恩恵を受けるだけでなく、いつ家庭教師を依頼するか、誰に何を依頼するかを能動的に選択できる学習者を設計することです。
したがって、学習者は個別指導の質に対してより堅牢になり、少ないデモンストレーションでより速く学習できます。
私たちは、機械学習アルゴリズムを使用して社会的に誘導された内発的動機づけのフレームワークを開発しました。これは、人間のデモンストレーションの一般化特性を受動的方法で利用することによって、または単純で構成されたサブタスクの最適な講師からのデモンストレーションの要求を通じて能動的方法で複数のタスクを学習するためです。
後者は、構築プロセスのために提案されたサブタスク構成の表現に依存しており、人間の動きや日常生活の活動を分析する観察プロセスに使用される表現によって洗練される必要があります。
家庭教師との言語に似たコミュニケーションを見通して、連続的な感覚運動空間の象徴的表現と内発的動機づけを用いた課題の出現を調査した。
私たちは、強化学習フレームワーク内で、マルチタスク学習における自動カリキュラム学習のための講師との対話に対する報酬関数を提案しました。

要約(オリジナル)

This work in the field of developmental cognitive robotics aims to devise a new domain bridging between reinforcement learning and imitation learning, with a model of the intrinsic motivation for learning agents to learn with guidance from tutors multiple tasks, including sequential tasks. The main contribution has been to propose a common formulation of intrinsic motivation based on empirical progress for a learning agent to choose automatically its learning curriculum by actively choosing its learning strategy for simple or sequential tasks: which task to learn, between autonomous exploration or imitation learning, between low-level actions or task decomposition, between several tutors. The originality is to design a learner that benefits not only passively from data provided by tutors, but to actively choose when to request tutoring and what and whom to ask. The learner is thus more robust to the quality of the tutoring and learns faster with fewer demonstrations. We developed the framework of socially guided intrinsic motivation with machine learning algorithms to learn multiple tasks by taking advantage of the generalisability properties of human demonstrations in a passive manner or in an active manner through requests of demonstrations from the best tutor for simple and composing subtasks. The latter relies on a representation of subtask composition proposed for a construction process, which should be refined by representations used for observational processes of analysing human movements and activities of daily living. With the outlook of a language-like communication with the tutor, we investigated the emergence of a symbolic representation of the continuous sensorimotor space and of tasks using intrinsic motivation. We proposed within the reinforcement learning framework, a reward function for interacting with tutors for automatic curriculum learning in multi-task learning.

arxiv情報

著者 Sao Mai Nguyen
発行日 2024-12-29 20:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO, I.2.6 パーマリンク