SwitchMT: An Adaptive Context Switching Methodology for Scalable Multi-Task Learning in Intelligent Autonomous Agents

要約

複数のタスクでインテリジェントな自律エージェント(モバイルロボットなど)をトレーニングする機能は、動的な現実世界環境に適応するために重要です。
ただし、最先端の強化学習(RL)は、シングルタスク設定でのみ優れているため、タスク干渉のために複数のタスクを一般化するのに苦労しています。
さらに、実際の環境では、エージェントにデータストリーム処理機能を持つように要求します。
これに向けて、最先端の作業では、低出力/エネルギーイベントベースの操作を可能にしながら、データストリームで一時的な情報を活用することにより、マルチタスク学習を改善するために、スパイクニューラルネットワーク(SNN)を採用しています。
ただし、トレーニング中に固定コンテキスト/タスクスイッチング間隔に依存するため、マルチタスク学習のスケーラビリティと有効性が制限されます。
これらの制限に対処するために、自律エージェントのRLベースのマルチタスク学習のための新しい適応タスクスイッチング方法論であるSwitchMTを提案します。
具体的には、SwitchMTは次の重要なアイデアを採用しています。(1)アクティブな樹状突起と決闘構造を備えた深いスパイクQネットワーク。タスク固有のコンテキスト信号を利用して特殊なサブネットワークを作成します。
(2)ネットワークパラメーターの報酬と内部ダイナミクスの両方を活用する適応型タスクスイッチングポリシー。
実験結果は、SwitchMTが最新の方法と比較してマルチタスク学習で優れたパフォーマンスを達成することを示しています。
複数のAtariゲーム(つまり、Pong:-8.8、Breakout:5.6、およびEnduro:355.2)で競争力のあるスコアを達成し、最先端の学習能力を示しています。
これらの結果は、適応性のあるタスクスイッチングを通じてマルチタスク学習自動化を可能にしながら、タスク干渉に対処する際のSwitchMT方法論の有効性を強調し、それにより、スケーラブルなマルチタスク学習機能を備えたより効率的なジェネラリストエージェントへの道を開きます。

要約(オリジナル)

The ability to train intelligent autonomous agents (such as mobile robots) on multiple tasks is crucial for adapting to dynamic real-world environments. However, state-of-the-art reinforcement learning (RL) methods only excel in single-task settings, and still struggle to generalize across multiple tasks due to task interference. Moreover, real-world environments also demand the agents to have data stream processing capabilities. Toward this, a state-of-the-art work employs Spiking Neural Networks (SNNs) to improve multi-task learning by exploiting temporal information in data stream, while enabling lowpower/energy event-based operations. However, it relies on fixed context/task-switching intervals during its training, hence limiting the scalability and effectiveness of multi-task learning. To address these limitations, we propose SwitchMT, a novel adaptive task-switching methodology for RL-based multi-task learning in autonomous agents. Specifically, SwitchMT employs the following key ideas: (1) a Deep Spiking Q-Network with active dendrites and dueling structure, that utilizes task-specific context signals to create specialized sub-networks; and (2) an adaptive task-switching policy that leverages both rewards and internal dynamics of the network parameters. Experimental results demonstrate that SwitchMT achieves superior performance in multi-task learning compared to state-of-the-art methods. It achieves competitive scores in multiple Atari games (i.e., Pong: -8.8, Breakout: 5.6, and Enduro: 355.2) compared to the state-of-the-art, showing its better generalized learning capability. These results highlight the effectiveness of our SwitchMT methodology in addressing task interference while enabling multi-task learning automation through adaptive task switching, thereby paving the way for more efficient generalist agents with scalable multi-task learning capabilities.

arxiv情報

著者 Avaneesh Devkota,Rachmad Vidya Wicaksana Putra,Muhammad Shafique
発行日 2025-04-18 08:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO パーマリンク