Integrating Statistical Significance and Discriminative Power in Pattern Discovery

要約

パターン発見は、複数のドメインにわたる記述タスクと予測タスクの両方において中心的な役割を果たします。
実用的なパターンは、厳密な統計的有意性基準を満たし、ターゲット変数の存在下でさらに識別力を維持する必要があります。
私たちの研究は、パターンの品質を維持しながら、統計的有意性と識別力基準を最先端のアルゴリズムに統合することにより、ガイド パターン発見という未開拓の領域に取り組んでいます。
また、一部のアルゴリズムによって課されるパターン品質のしきい値を、これらの追加の基準に合わせて修正する方法についても説明します。
提案された方法論をテストするために、ガイド パターン発見ケースとして 3 クラスタリング タスクを選択し、平均値などのさまざまなパターン品質基準を使用するよく知られた貪欲で多目的最適化の 3 クラスタリング アルゴリズム $\delta$-Trimax および TriGen を拡張します。
二乗残差 (MSR)、最小二乗直線 (LSL)、およびマルチスロープ測定 (MSL)。
3 つのケーススタディの結果は、品質を低下させることなく、識別力と統計的有意性が顕著に向上したパターンを発見する際の提案された方法論の役割を示しており、監視された検索のガイドにおけるその重要性を強調しています。
提案された方法論は多変量時系列データを対象としていますが、多変量、N ウェイ (N>3)、トランザクション、およびシーケンシャル データ構造を含むパターン発見タスクに直接拡張できます。
入手可能性: コードは、MIT ライセンスに基づいて https://github.com/JupitersMight/MOF_Triclustering から無料で入手できます。

要約(オリジナル)

Pattern discovery plays a central role in both descriptive and predictive tasks across multiple domains. Actionable patterns must meet rigorous statistical significance criteria and, in the presence of target variables, further uphold discriminative power. Our work addresses the underexplored area of guiding pattern discovery by integrating statistical significance and discriminative power criteria into state-of-the-art algorithms while preserving pattern quality. We also address how pattern quality thresholds, imposed by some algorithms, can be rectified to accommodate these additional criteria. To test the proposed methodology, we select the triclustering task as the guiding pattern discovery case and extend well-known greedy and multi-objective optimization triclustering algorithms, $\delta$-Trimax and TriGen, that use various pattern quality criteria, such as Mean Squared Residual (MSR), Least Squared Lines (LSL), and Multi Slope Measure (MSL). Results from three case studies show the role of the proposed methodology in discovering patterns with pronounced improvements of discriminative power and statistical significance without quality deterioration, highlighting its importance in supervisedly guiding the search. Although the proposed methodology is motivated over multivariate time series data, it can be straightforwardly extended to pattern discovery tasks involving multivariate, N-way (N>3), transactional, and sequential data structures. Availability: The code is freely available at https://github.com/JupitersMight/MOF_Triclustering under the MIT license.

arxiv情報

著者 Leonardo Alexandre,Rafael S. Costa,Rui Henriques
発行日 2024-01-22 14:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク