要約
内発的動機による探索は、追加の外部報酬がない場合でも、強化学習に役立つことが証明されています。
環境が自然にグラフとして表現される場合、どのように探索を最適に導くかは未解決の問題のままです。
この研究では、情報ギャップ理論と圧縮進行理論という人間の好奇心の 2 つの理論に動機付けられてグラフ構造データを探索するための新しいアプローチを提案します。
この理論では、好奇心は、環境内の訪問ノードによって引き起こされるサブグラフのトポロジー的特徴を最適化するための内発的動機であるとみなされます。
提案されたこれらの特徴は、グラフ ニューラル ネットワーク ベースの強化学習の報酬として使用されます。
合成的に生成された複数のクラスのグラフでは、訓練されたエージェントが訓練中に見られるよりも大きな環境とより長い探索歩行に一般化していることがわかります。
私たちの方法は、関連するトポロジー特性の貪欲な評価よりも効率的に計算します。
提案された内発的動機づけは、推薦システムに特に関連性があります。
MovieLens、Amazon Books、Wikispeedia などのいくつかの実世界のグラフ データセットについて、好奇心に基づく推奨事項のほうが、PageRank の中心性よりも人間の行動をより予測できることを実証します。
要約(オリジナル)
Intrinsically motivated exploration has proven useful for reinforcement learning, even without additional extrinsic rewards. When the environment is naturally represented as a graph, how to guide exploration best remains an open question. In this work, we propose a novel approach for exploring graph-structured data motivated by two theories of human curiosity: the information gap theory and the compression progress theory. The theories view curiosity as an intrinsic motivation to optimize for topological features of subgraphs induced by the visited nodes in the environment. We use these proposed features as rewards for graph neural-network-based reinforcement learning. On multiple classes of synthetically generated graphs, we find that trained agents generalize to larger environments and to longer exploratory walks than are seen during training. Our method computes more efficiently than the greedy evaluation of the relevant topological properties. The proposed intrinsic motivations bear particular relevance for recommender systems. We demonstrate that curiosity-based recommendations are more predictive of human behavior than PageRank centrality for several real-world graph datasets, including MovieLens, Amazon Books, and Wikispeedia.
arxiv情報
著者 | Shubhankar P. Patankar,Mathieu Ouellet,Juan Cervino,Alejandro Ribeiro,Kieran A. Murphy,Dani S. Bassett |
発行日 | 2023-07-13 19:32:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google