PHEATPRUNER: Interpretable Data-centric Feature Selection for Multivariate Time Series Classification through Persistent Homology

要約

多変量時系列分類におけるパフォーマンスと解釈性のバランスは、データの複雑さと高次元のために重要な課題です。
このペーパーでは、PheatPrunerを紹介します。PheatPrunerは、これらの課題に対処するために永続的な相同性と束理論を統合する方法です。
永続的な相同性は、ランダムフォレスト、キャットブースト、XGBoost、LightGBMなどのモデルの精度を維持または強化しながら、適用された変数の最大45%の剪定を促進します。
同時に、SHEAF理論は、データの構造ニュアンスに対するより深い洞察を提供する説明ベクターに寄与します。
このアプローチは、乳牛のUEAアーカイブと乳房炎検出データセットを使用して検証されました。
結果は、PheatPrunerがモデルの精度を効果的に保持することを示しています。
さらに、私たちの結果は、PheatPrunerの主要な機能を強調しています。つまり、複雑なデータを簡素化し、処理時間や複雑さを増やすことなく実用的な洞察を提供します。
この方法は、複雑さの削減と解釈可能性の間のギャップを橋渡しし、さまざまな分野での有望なアプリケーションを示唆しています。

要約(オリジナル)

Balancing performance and interpretability in multivariate time series classification is a significant challenge due to data complexity and high dimensionality. This paper introduces PHeatPruner, a method integrating persistent homology and sheaf theory to address these challenges. Persistent homology facilitates the pruning of up to 45% of the applied variables while maintaining or enhancing the accuracy of models such as Random Forest, CatBoost, XGBoost, and LightGBM, all without depending on posterior probabilities or supervised optimization algorithms. Concurrently, sheaf theory contributes explanatory vectors that provide deeper insights into the data’s structural nuances. The approach was validated using the UEA Archive and a mastitis detection dataset for dairy cows. The results demonstrate that PHeatPruner effectively preserves model accuracy. Furthermore, our results highlight PHeatPruner’s key features, i.e. simplifying complex data and offering actionable insights without increasing processing time or complexity. This method bridges the gap between complexity reduction and interpretability, suggesting promising applications in various fields.

arxiv情報

著者 Anh-Duy Pham,Olivier Basole Kashongwe,Martin Atzmueller,Tim Römer
発行日 2025-04-25 13:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク