Producing Plankton Classifiers that are Robust to Dataset Shift


満足のいく名目上のパフォーマンスにもかかわらず、データセット シフトから重大な課題が生じ、展開中にパフォーマンスが低下します。
私たちの研究では、ZooLake データセットを、独立した 10 日間の展開から手動でアノテーションが付けられた画像と統合し、データセット外 (OOD) のパフォーマンスをベンチマークするためのテスト セルとして機能します。
たとえば、公称テスト精度が 92% の MobileNet は、OOD 精度が 77% であることを示します。
私たちは、OOD パフォーマンスの低下につながる条件を系統的に調査し、新しいデータを分類する際の潜在的な落とし穴を特定し、分類に悪影響を与える OOD 画像の特徴を特定するための先制的評価方法を提案します。
当社は、(i) 公称テストパフォーマンスと比較した OOD 劣化の特定、(ii) 劣化原因の診断分析の実施、および (iii) 解決策の提供という 3 つのステップのパイプラインを提示します。
OOD の堅牢性、幾何学的アンサンブル、回転ベースのテスト時拡張に対処するターゲットを絞った拡張を備えた BEiT ビジョン トランスフォーマーのアンサンブルが、BEsT モデルと呼ばれる最も堅牢なモデルを構成することがわかりました。
83% の OOD 精度を達成しており、エラーはコンテナー クラスに集中しています。


Modern plankton high-throughput monitoring relies on deep learning classifiers for species recognition in water ecosystems. Despite satisfactory nominal performances, a significant challenge arises from Dataset Shift, which causes performances to drop during deployment. In our study, we integrate the ZooLake dataset with manually-annotated images from 10 independent days of deployment, serving as test cells to benchmark Out-Of-Dataset (OOD) performances. Our analysis reveals instances where classifiers, initially performing well in In-Dataset conditions, encounter notable failures in practical scenarios. For example, a MobileNet with a 92% nominal test accuracy shows a 77% OOD accuracy. We systematically investigate conditions leading to OOD performance drops and propose a preemptive assessment method to identify potential pitfalls when classifying new data, and pinpoint features in OOD images that adversely impact classification. We present a three-step pipeline: (i) identifying OOD degradation compared to nominal test performance, (ii) conducting a diagnostic analysis of degradation causes, and (iii) providing solutions. We find that ensembles of BEiT vision transformers, with targeted augmentations addressing OOD robustness, geometric ensembling, and rotation-based test-time augmentation, constitute the most robust model, which we call BEsT model. It achieves an 83% OOD accuracy, with errors concentrated on container classes. Moreover, it exhibits lower sensitivity to dataset shift, and reproduces well the plankton abundances. Our proposed pipeline is applicable to generic plankton classifiers, contingent on the availability of suitable test cells. By identifying critical shortcomings and offering practical procedures to fortify models against dataset shift, our study contributes to the development of more reliable plankton classification technologies.


著者 Cheng Chen,Sreenath Kyathanahally,Marta Reyes,Stefanie Merkli,Ewa Merz,Emanuele Francazi,Marvin Hoege,Francesco Pomati,Marco Baity-Jesi
発行日 2024-01-25 15:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク