Markovletics: Methods and A Novel Application for Learning Continuous-Time Markov Chain Mixtures

要約

連続データは、ソーシャル メディア、音楽ストリーミング サービス、Web ナビゲーションなどのデジタル プラットフォームでのユーザー エンゲージメントから自然に生成され、継続的な情報ストリームを通じて進化するユーザーの好みや行動をカプセル化します。
確率過程における注目すべき未解決クエリは、連続時間マルコフ連鎖 (CTMC) の混合学習です。
回復保証を備えた離散時間マルコフ連鎖の混合学習では進歩が見られますが [GKV16、ST23、KTT2023]、連続シナリオでは独自の未踏の課題が明らかになります。
CTMC 混合物の魅力は、ソーシャル メディア、金融、生物学などのさまざまな分野で普及している複雑な連続時間の確率過程をモデル化できる可能性に由来しています。
この研究では、特定のアルゴリズムを必要とする、観察されたトレイルの長さと混合パラメータが問題領域に及ぼす影響を強調して、CTMCを探索するための新しいフレームワークを紹介します。
これらのプロセスは離散的でリソースを必要とする観察によって観察されることが多いことを考慮して、徹底的な実験を通じて、連続時間トレイルの離散化が連続時間混合物の学習可能性に及ぼす影響を調べます。
主要な手法との比較分析では、サンプルの複雑さ、およびトレイルの数とその長さの間のトレードオフを調査し、さまざまな問題の事例における手法の選択に重要な洞察を提供します。
私たちは、3 年間にわたる Lastfm のユーザー生成のトレイルの広範なコレクションにアルゴリズムを適用し、多様なユーザーの好みを区別するアルゴリズムの機能を実証しました。
私たちは、NBA チームの複雑な攻撃戦術を明らかにするために、バスケットボールのパス データセットで CTMC 混合物を使用する先駆者です。
これは、私たちが提案するフレームワークの実際的な有用性と多用途性を強調しています。
この研究で示されたすべての結果は再現可能であり、再現性を促進するための実装が提供されています。

要約(オリジナル)

Sequential data naturally arises from user engagement on digital platforms like social media, music streaming services, and web navigation, encapsulating evolving user preferences and behaviors through continuous information streams. A notable unresolved query in stochastic processes is learning mixtures of continuous-time Markov chains (CTMCs). While there is progress in learning mixtures of discrete-time Markov chains with recovery guarantees [GKV16,ST23,KTT2023], the continuous scenario uncovers unique unexplored challenges. The intrigue in CTMC mixtures stems from their potential to model intricate continuous-time stochastic processes prevalent in various fields including social media, finance, and biology. In this study, we introduce a novel framework for exploring CTMCs, emphasizing the influence of observed trails’ length and mixture parameters on problem regimes, which demands specific algorithms. Through thorough experimentation, we examine the impact of discretizing continuous-time trails on the learnability of the continuous-time mixture, given that these processes are often observed via discrete, resource-demanding observations. Our comparative analysis with leading methods explores sample complexity and the trade-off between the number of trails and their lengths, offering crucial insights for method selection in different problem instances. We apply our algorithms on an extensive collection of Lastfm’s user-generated trails spanning three years, demonstrating the capability of our algorithms to differentiate diverse user preferences. We pioneer the use of CTMC mixtures on a basketball passing dataset to unveil intricate offensive tactics of NBA teams. This underscores the pragmatic utility and versatility of our proposed framework. All results presented in this study are replicable, and we provide the implementations to facilitate reproducibility.

arxiv情報

著者 Fabian Spaeh,Charalampos E. Tsourakakis
発行日 2024-02-27 18:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク