Reinforcement Logic Rule Learning for Temporal Point Processes

要約

時間的イベントの発生を説明するために、説明用時相論理ルールセットを段階的に拡張できるフレームワークを提案します。
時間点プロセスのモデリングと学習フレームワークを活用して、ルールの内容と重みは、観測イベント シーケンスの尤度が最適になるまで徐々に最適化されます。
提案されたアルゴリズムは、現在のルール セットの重みが更新されるマスター問題と、可能性を最大限に高めるために新しいルールが検索されて含まれるサブ問題を交互に実行します。
定式化されたマスター問題は凸型であり、継続的最適化を使用して比較的簡単に解決できますが、サブ問題では巨大な組み合わせルールの述語と関係空間を検索する必要があります。
この課題に取り組むために、一連のアクションとして新しいルール コンテンツを生成する方法を学習するニューラル検索ポリシーを提案します。
ポリシー パラメーターは強化学習フレームワークを使用してエンドツーエンドでトレーニングされ、部分問題の目標を評価することで報酬シグナルを効率的にクエリできます。
トレーニングされたポリシーを使用して、制御可能な方法で新しいルールを生成できます。
私たちは合成および実際の医療データセットの両方で手法を評価し、有望な結果を得ています。

要約(オリジナル)

We propose a framework that can incrementally expand the explanatory temporal logic rule set to explain the occurrence of temporal events. Leveraging the temporal point process modeling and learning framework, the rule content and weights will be gradually optimized until the likelihood of the observational event sequences is optimal. The proposed algorithm alternates between a master problem, where the current rule set weights are updated, and a subproblem, where a new rule is searched and included to best increase the likelihood. The formulated master problem is convex and relatively easy to solve using continuous optimization, whereas the subproblem requires searching the huge combinatorial rule predicate and relationship space. To tackle this challenge, we propose a neural search policy to learn to generate the new rule content as a sequence of actions. The policy parameters will be trained end-to-end using the reinforcement learning framework, where the reward signals can be efficiently queried by evaluating the subproblem objective. The trained policy can be used to generate new rules in a controllable way. We evaluate our methods on both synthetic and real healthcare datasets, obtaining promising results.

arxiv情報

著者 Chao Yang,Lu Wang,Kun Gao,Shuang Li
発行日 2023-08-11 12:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク