要約
大規模なデータセットでの異常検出は、天文学やコンピュータービジョンなどの分野では不可欠です。
ただし、監視された方法では通常、広範な異常標識が必要です。これはしばしば非現実的です。
Anomalymatchは、アクティブな学習を備えたEfficientNet分類器を使用して、半監視FixMatchアルゴリズムを組み合わせた異常検出フレームワークです。
異常検出を半監視されたバイナリ分類問題として扱うことにより、限られたラベル付きおよび豊富な非標識画像を効率的に利用します。
ユーザーインターフェイスでの反復モデルの改良を許可し、自信の高い異常と誤検知の修正を専門的に検証します。
Anomalymatchは、天文データのために構築された、同様のデータの課題に直面している他のドメインに容易に一般化します。
Galaxymnist Astronomical DatasetおよびMiniimagenetの自然画像ベンチマークの重度のクラスの不均衡(ミニムゲネットの1%の異常)の評価は、5〜10個の標識異常を示し、3つのアクティブな学習サイクルの後、0.95(ミニメーテル)と0.86(Galaxinist)の平均Auroc(galaxynet)を達成します。
0.71。
アクティブな学習サイクルの後、アノマリーは、最高ランクの画像の1%で71%(ミニマゲネット)から93%の精度でランク付けされます。
Anomalymatchは、大規模なアプリケーションに合わせて調整されており、3日以内に1億画像の予測を1つのGPUで効率的に処理します。
ESAS Datalabsプラットフォームに統合されたAnomalymatchは、広大な天文データセットにおける科学的に価値のある異常の標的的な発見を促進します。
私たちの結果は、異常発見のためのこのアプローチの例外的な有用性とスケーラビリティを強調し、深刻なラベルの希少性を特徴とするドメインの特殊なアプローチの価値を強調しています。
要約(オリジナル)
Anomaly detection in large datasets is essential in fields such as astronomy and computer vision; however, supervised methods typically require extensive anomaly labelling, which is often impractical. We present AnomalyMatch, an anomaly detection framework combining the semi-supervised FixMatch algorithm using EfficientNet classifiers with active learning. By treating anomaly detection as a semi-supervised binary classification problem, we efficiently utilise limited labelled and abundant unlabelled images. We allow iterative model refinement in a user interface for expert verification of high-confidence anomalies and correction of false positives. Built for astronomical data, AnomalyMatch generalises readily to other domains facing similar data challenges. Evaluations on the GalaxyMNIST astronomical dataset and the miniImageNet natural-image benchmark under severe class imbalance (1% anomalies for miniImageNet) display strong performance: starting from five to ten labelled anomalies and after three active learning cycles, we achieve an average AUROC of 0.95 (miniImageNet) and 0.86 (GalaxyMNIST), with respective AUPRC of 0.77 and 0.71. After active learning cycles, anomalies are ranked with 71% (miniImageNet) to 93% precision in the 1% of the highest-ranked images. AnomalyMatch is tailored for large-scale applications, efficiently processing predictions for 100 million images within three days on a single GPU. Integrated into ESAs Datalabs platform, AnomalyMatch facilitates targeted discovery of scientifically valuable anomalies in vast astronomical datasets. Our results underscore the exceptional utility and scalability of this approach for anomaly discovery, highlighting the value of specialised approaches for domains characterised by severe label scarcity.
arxiv情報
著者 | Pablo Gómez,David O’Ryan |
発行日 | 2025-05-06 13:19:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google