Integrating Statistical Significance and Discriminative Power in Pattern Discovery


私たちの研究は、パターンの品質を維持しながら、統計的有意性と識別力基準を最先端のアルゴリズムに統合することにより、ガイド パターン発見という未開拓の領域に取り組んでいます。
提案された方法論をテストするために、ガイド パターン発見ケースとして 3 クラスタリング タスクを選択し、平均値などのさまざまなパターン品質基準を使用するよく知られた貪欲で多目的最適化の 3 クラスタリング アルゴリズム $\delta$-Trimax および TriGen を拡張します。
二乗残差 (MSR)、最小二乗直線 (LSL)、およびマルチスロープ測定 (MSL)。
3 つのケーススタディの結果は、品質を低下させることなく、識別力と統計的有意性が顕著に向上したパターンを発見する際の提案された方法論の役割を示しており、監視された検索のガイドにおけるその重要性を強調しています。
提案された方法論は多変量時系列データを対象としていますが、多変量、N ウェイ (N>3)、トランザクション、およびシーケンシャル データ構造を含むパターン発見タスクに直接拡張できます。
入手可能性: コードは、MIT ライセンスに基づいて から無料で入手できます。


Pattern discovery plays a central role in both descriptive and predictive tasks across multiple domains. Actionable patterns must meet rigorous statistical significance criteria and, in the presence of target variables, further uphold discriminative power. Our work addresses the underexplored area of guiding pattern discovery by integrating statistical significance and discriminative power criteria into state-of-the-art algorithms while preserving pattern quality. We also address how pattern quality thresholds, imposed by some algorithms, can be rectified to accommodate these additional criteria. To test the proposed methodology, we select the triclustering task as the guiding pattern discovery case and extend well-known greedy and multi-objective optimization triclustering algorithms, $\delta$-Trimax and TriGen, that use various pattern quality criteria, such as Mean Squared Residual (MSR), Least Squared Lines (LSL), and Multi Slope Measure (MSL). Results from three case studies show the role of the proposed methodology in discovering patterns with pronounced improvements of discriminative power and statistical significance without quality deterioration, highlighting its importance in supervisedly guiding the search. Although the proposed methodology is motivated over multivariate time series data, it can be straightforwardly extended to pattern discovery tasks involving multivariate, N-way (N>3), transactional, and sequential data structures. Availability: The code is freely available at under the MIT license.


著者 Leonardo Alexandre,Rafael S. Costa,Rui Henriques
発行日 2024-01-22 14:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, stat.ML パーマリンク