Online Continual Learning For Interactive Instruction Following Agents

要約

言語ディレクティブを介して日常タスクを実行する具体化されたエージェントを学習する際、文献では主に、エージェントが最初にすべてのトレーニング データを学習すると想定しています。
ロボットエージェントは世界を探索し認識しながら継続的に学習することになっているため、このような学習シナリオはあまり現実的ではないと我々は主張する。
より現実的な身体エージェントの学習シナリオに向けて一歩を踏み出すために、身体エージェントの 2 つの継続的な学習セットアップを提案します。
新しい行動(行動増分学習、行動-IL)と新しい環境(環境増分学習、環境-IL)の学習 タスクについては、以前の「事前データ」ベースの継続的学習手法により、過去のタスクのロジットが維持されます。
ただし、保存された情報は学習が不十分な情報であることが多く、常に利用できるとは限らないタスク境界情報が必要です。
ここでは、Confidence-Aware Moving Average (CAMA) と呼ばれる移動平均方式で、トレーニング中にタスク境界情報なし (つまり、タスクなし) の信頼スコアに基づいてそれらを更新することを提案します。
提案された Behavior-IL およびEnvironment-IL セットアップでは、当社の単純な CAMA は、経験的検証において従来の最先端技術を顕著なマージンで上回っています。
コードを含むプロジェクト ページは https://github.com/snumprlab/cl-alfred です。

要約(オリジナル)

In learning an embodied agent executing daily tasks via language directives, the literature largely assumes that the agent learns all training data at the beginning. We argue that such a learning scenario is less realistic since a robotic agent is supposed to learn the world continuously as it explores and perceives it. To take a step towards a more realistic embodied agent learning scenario, we propose two continual learning setups for embodied agents; learning new behaviors (Behavior Incremental Learning, Behavior-IL) and new environments (Environment Incremental Learning, Environment-IL) For the tasks, previous ‘data prior’ based continual learning methods maintain logits for the past tasks. However, the stored information is often insufficiently learned information and requires task boundary information, which might not always be available. Here, we propose to update them based on confidence scores without task boundary information during training (i.e., task-free) in a moving average fashion, named Confidence-Aware Moving Average (CAMA). In the proposed Behavior-IL and Environment-IL setups, our simple CAMA outperforms prior state of the art in our empirical validations by noticeable margins. The project page including codes is https://github.com/snumprlab/cl-alfred.

arxiv情報

著者 Byeonghwi Kim,Minhyuk Seo,Jonghyun Choi
発行日 2024-03-13 02:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク