Ensembles of Vision Transformers as a New Paradigm for Automated Classification in Ecology

要約

生物多様性の監視は、天然資源を管理および保護するために最も重要です。
大規模な時間的または空間的スケールで生物の画像を収集することは、自然生態系の生物多様性を監視するための有望な方法であり、環境への干渉を最小限に抑えて大量のデータを提供します。
深層学習モデルは現在、生物を分類単位に自動的に分類するために使用されています。
ただし、これらの分類器の不正確さは、制御が困難な測定ノイズをもたらし、データの分析と解釈を著しく妨げる可能性があります。
{データ効率の高いイメージ トランスフォーマー (DeiT) のアンサンブルによってこの制限を克服しました。これは、トレーニングと実装が簡単であるだけでなく、以前の最先端技術 (SOTA) よりも大幅に優れています}。
プランクトンから鳥に至るまで、さまざまな起源の 10 個の生態学的画像データセットで結果を検証します。
すべてのデータセットで、新しい SOTA を達成し、以前の SOTA に対するエラーを 29.35% から 100.00% の範囲で削減し、多くの場合、完全な分類に非常に近いパフォーマンスを達成しています。
DeiT のアンサンブルは、単一モデルのパフォーマンスが優れているためではなく、独立したモデルによる予測のオーバーラップが小さく、トップ 1 確率が低いため、パフォーマンスが向上します。
これにより、特に幾何平均を使用して個々の学習者を組み合わせる場合に、アンサンブルの利点が高まります。
生物多様性の画像データセットでのみアプローチをテストしますが、アプローチは一般的であり、あらゆる種類の画像に適用できます。

要約(オリジナル)

Monitoring biodiversity is paramount to manage and protect natural resources. Collecting images of organisms over large temporal or spatial scales is a promising practice to monitor the biodiversity of natural ecosystems, providing large amounts of data with minimal interference with the environment. Deep learning models are currently used to automate classification of organisms into taxonomic units. However, imprecision in these classifiers introduces a measurement noise that is difficult to control and can significantly hinder the analysis and interpretation of data. {We overcome this limitation through ensembles of Data-efficient image Transformers (DeiTs), which not only are easy to train and implement, but also significantly outperform} the previous state of the art (SOTA). We validate our results on ten ecological imaging datasets of diverse origin, ranging from plankton to birds. On all the datasets, we achieve a new SOTA, with a reduction of the error with respect to the previous SOTA ranging from 29.35% to 100.00%, and often achieving performances very close to perfect classification. Ensembles of DeiTs perform better not because of superior single-model performances but rather due to smaller overlaps in the predictions by independent models and lower top-1 probabilities. This increases the benefit of ensembling, especially when using geometric averages to combine individual learners. While we only test our approach on biodiversity image datasets, our approach is generic and can be applied to any kind of images.

arxiv情報

著者 S. Kyathanahally,T. Hardeman,M. Reyes,E. Merz,T. Bulas,P. Brun,F. Pomati,M. Baity-Jesi
発行日 2022-09-29 12:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク