Meta Generative Flow Networks with Personalization for Task-Specific Adaptation

要約

マルチタスク強化学習とメタ強化学習は、新しいタスクに迅速に適応するために開発されてきましたが、報酬が高く、発生頻度が高いタスクに焦点を当てる傾向があり、報酬が少ないタスクではパフォーマンスが低下します。
この問題に対処するために、報酬が少ないタスクで GFlowNets の利点を活用することで、GFlowNets をメタ学習アルゴリズム (GFlowMeta) に統合できます。
ただし、GFlowMeta は、個別のタスクからの異種遷移が発生するとパフォーマンスが低下します。
この課題を克服するために、このホワイト ペーパーでは、タスク固有のパーソナライズされたポリシーとメタ ポリシーを組み合わせた、pGFlowMeta という名前のパーソナライズされたアプローチを提案します。
各パーソナライズされたポリシーは、そのパーソナライズされたタスクの損失とメタ ポリシーとの差のバランスをとりますが、メタ ポリシーはすべてのタスクの平均損失を最小限に抑えることを目的としています。
理論的分析により、アルゴリズムが線形未満の速度で収束することが示されています。
広範な実験により、提案されたアルゴリズムが離散環境における最先端の強化学習アルゴリズムよりも優れたパフォーマンスを発揮することが実証されました。

要約(オリジナル)

Multi-task reinforcement learning and meta-reinforcement learning have been developed to quickly adapt to new tasks, but they tend to focus on tasks with higher rewards and more frequent occurrences, leading to poor performance on tasks with sparse rewards. To address this issue, GFlowNets can be integrated into meta-learning algorithms (GFlowMeta) by leveraging the advantages of GFlowNets on tasks with sparse rewards. However, GFlowMeta suffers from performance degradation when encountering heterogeneous transitions from distinct tasks. To overcome this challenge, this paper proposes a personalized approach named pGFlowMeta, which combines task-specific personalized policies with a meta policy. Each personalized policy balances the loss on its personalized task and the difference from the meta policy, while the meta policy aims to minimize the average loss of all tasks. The theoretical analysis shows that the algorithm converges at a sublinear rate. Extensive experiments demonstrate that the proposed algorithm outperforms state-of-the-art reinforcement learning algorithms in discrete environments.

arxiv情報

著者 Xinyuan Ji,Xu Zhang,Wei Xi,Haozhi Wang,Olga Gadyatskaya,Yinchuan Li
発行日 2023-06-16 10:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク