A Self-Organizing Clustering System for Unsupervised Distribution Shift Detection

要約

非定常データのモデリングは継続学習の分野では困難な問題であり、データ分布の変化は機械学習モデルのパフォーマンスに悪影響を及ぼす可能性があります。
従来の学習ツールは入力共変量の摂動に対して脆弱であることが多く、外れ値やノイズの影響を受けやすく、一部のツールは厳格な代数的仮定に基づいています。
生産用の原材料の変更、季節性、ユーザーベースの変化、さらには敵対的攻撃によって、流通の変化が頻繁に発生しています。
したがって、より効果的な分布シフト検出技術が必要とされています。
この研究では、分布の変化を監視および検出するための継続的な学習フレームワークを提案します。
私たちは、生物にインスピレーションを得た自己組織化クラスタリングと潜在空間の統計的側面によって生成される潜在空間の問題を調査します。
特に、自己組織化マップとスケール不変マップという 2 つのトポロジー保存マップによって作成された投影を調査します。
私たちの方法は、教師ありコンテキストと教師なしコンテキストの両方に適用できます。
ガウス信号の比較としてデータ分布の変化の評価を構築し、提案された方法を高速かつ堅牢なものにします。
これを他の教師なし手法、特に主成分分析 (PCA) およびカーネル PCA と比較します。
私たちの比較には、一連の画像 (MNIST と敵対的サンプルの注入シフトに基づく)、化学センサーの測定、およびオゾン レベルに関連する環境変数を使用した実験の実施が含まれます。
実証研究により、提案されたアプローチの可能性が明らかになりました。

要約(オリジナル)

Modeling non-stationary data is a challenging problem in the field of continual learning, and data distribution shifts may result in negative consequences on the performance of a machine learning model. Classic learning tools are often vulnerable to perturbations of the input covariates, and are sensitive to outliers and noise, and some tools are based on rigid algebraic assumptions. Distribution shifts are frequently occurring due to changes in raw materials for production, seasonality, a different user base, or even adversarial attacks. Therefore, there is a need for more effective distribution shift detection techniques. In this work, we propose a continual learning framework for monitoring and detecting distribution changes. We explore the problem in a latent space generated by a bio-inspired self-organizing clustering and statistical aspects of the latent space. In particular, we investigate the projections made by two topology-preserving maps: the Self-Organizing Map and the Scale Invariant Map. Our method can be applied in both a supervised and an unsupervised context. We construct the assessment of changes in the data distribution as a comparison of Gaussian signals, making the proposed method fast and robust. We compare it to other unsupervised techniques, specifically Principal Component Analysis (PCA) and Kernel-PCA. Our comparison involves conducting experiments using sequences of images (based on MNIST and injected shifts with adversarial samples), chemical sensor measurements, and the environmental variable related to ozone levels. The empirical study reveals the potential of the proposed approach.

arxiv情報

著者 Sebastián Basterrech,Line Clemmensen,Gerardo Rubino
発行日 2024-04-25 14:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, I.2 パーマリンク