要約
長さ$ h $の$ t $軌道をクラスタリングする問題を研究します。それぞれが、$ k $未知のエルゴードマルコフチェーンの1つによって生成され、$ s $の有限状態空間にわたって生成されます。
目標は、基礎となる生成モデルに従って軌道を正確にグループ化することです。
まず、チェーンの遷移カーネル間の加重KLの発散によって支配されるクラスタリングエラー率のインスタンス依存性の高強度の下限を導き出すことから始めます。
次に、新しい2段階のクラスタリングアルゴリズムを提示します。
ステージ〜Iでは、エルゴジックマルコフチェーンに新しいインジェクチブユークリッド埋め込みを使用してスペクトルクラスタリングを適用します。これは、シャープ濃度の結果を可能にする独立した関心の貢献です。
ステージ〜IIは、尤度ベースの再割り当ての単一のステップを介して、初期クラスターを改良します。
Our method achieves a near-optimal clustering error with high probability, under the conditions $H = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} (S^2 \vee \pi_{\min}^{-1}))$ and $TH =
\ tilde {\ omega}(\ gamma _ {\ mathrm {ps}}^{-1} s^2)$、ここで$ \ pi _ {\ min} $は、$ k $ chainsと$ \ gamma _ {\ mathrm {\ mathrm {ps $ $ $ $ $ $ $ $ $ gamma}の$ k $ chainsの最小定常確率です。
これらの要件は、少なくとも同等ではないにしても、最先端の保証(Kausik et al。、2023)に大幅な改善を提供し、さらに、アルゴリズムは重要な実用的な利点を提供します。既存のアプローチとは異なり、モデル固有の量の事前知識は必要ありません(例えば、カーネルまたは視覚的確率の分離)。
締めくくり、上限と下限の間の固有のギャップについて議論し、このクラスタリング問題のユニークな構造に関する洞察を提供します。
要約(オリジナル)
We study the problem of clustering $T$ trajectories of length $H$, each generated by one of $K$ unknown ergodic Markov chains over a finite state space of size $S$. The goal is to accurately group trajectories according to their underlying generative model. We begin by deriving an instance-dependent, high-probability lower bound on the clustering error rate, governed by the weighted KL divergence between the transition kernels of the chains. We then present a novel two-stage clustering algorithm. In Stage~I, we apply spectral clustering using a new injective Euclidean embedding for ergodic Markov chains — a contribution of independent interest that enables sharp concentration results. Stage~II refines the initial clusters via a single step of likelihood-based reassignment. Our method achieves a near-optimal clustering error with high probability, under the conditions $H = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} (S^2 \vee \pi_{\min}^{-1}))$ and $TH = \tilde{\Omega}(\gamma_{\mathrm{ps}}^{-1} S^2 )$, where $\pi_{\min}$ is the minimum stationary probability of a state across the $K$ chains and $\gamma_{\mathrm{ps}}$ is the minimum pseudo-spectral gap. These requirements provide significant improvements, if not at least comparable, to the state-of-the-art guarantee (Kausik et al., 2023), and moreover, our algorithm offers a key practical advantage: unlike existing approach, it requires no prior knowledge of model-specific quantities (e.g., separation between kernels or visitation probabilities). We conclude by discussing the inherent gap between our upper and lower bounds, providing insights into the unique structure of this clustering problem.
arxiv情報
著者 | Junghyun Lee,Yassir Jedra,Alexandre Proutière,Se-Young Yun |
発行日 | 2025-06-18 15:49:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google