Preventing Conflicting Gradients in Neural Marked Temporal Point Processes

要約

Neural Marked Temporal Point Processes (MTPP) は、ラベル付きイベント間の複雑な時間的相互依存関係を捕捉する柔軟なモデルです。
これらのモデルは本質的に 2 つの予測分布を学習します。1 つはイベントの到着時間に関するもので、もう 1 つはマークとも呼ばれるイベントのタイプに関するものです。
この研究では、MTPP モデルの学習を 2 つのタスクの学習問題として組み立てることができ、両方のタスクが共同で最適化されるトレーニング可能なパラメーターの共通のセットを共有することを示します。
これにより、タスク固有の勾配が反対方向を向いている、トレーニング中に矛盾する勾配が出現することがよくあることを示します。
このような矛盾が発生した場合、平均勾配に従うと個々のタスクの学習に悪影響を及ぼす可能性があり、その結果、全体的なパフォーマンスが低下します。
この問題を克服するために、ニューラル MTPP モデルに新しいパラメータ化を導入します。これにより、各タスクの個別のモデリングとトレーニングが可能になり、勾配の競合の問題を効果的に回避できます。
複数の実世界のイベント シーケンス データセットの実験を通じて、元のモデル定式化と比較したフレームワークの利点を実証します。

要約(オリジナル)

Neural Marked Temporal Point Processes (MTPP) are flexible models to capture complex temporal inter-dependencies between labeled events. These models inherently learn two predictive distributions: one for the arrival times of events and another for the types of events, also known as marks. In this study, we demonstrate that learning a MTPP model can be framed as a two-task learning problem, where both tasks share a common set of trainable parameters that are optimized jointly. We show that this often leads to the emergence of conflicting gradients during training, where task-specific gradients are pointing in opposite directions. When such conflicts arise, following the average gradient can be detrimental to the learning of each individual tasks, resulting in overall degraded performance. To overcome this issue, we introduce novel parametrizations for neural MTPP models that allow for separate modeling and training of each task, effectively avoiding the problem of conflicting gradients. Through experiments on multiple real-world event sequence datasets, we demonstrate the benefits of our framework compared to the original model formulations.

arxiv情報

著者 Tanguy Bosser,Souhaib Ben Taieb
発行日 2024-12-11 18:10:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク