Ensembles of Vision Transformers as a New Paradigm for Automated Classification in Ecology

要約

生物多様性の監視は、特に地球規模の変化の時代において、天然資源を管理および保護するために最も重要です。
大規模な時間的または空間的スケールで生物の画像を収集することは、自然生態系の生物多様性の変化を監視および研究するための有望な方法であり、環境への干渉を最小限に抑えて大量のデータを提供します。
深層学習モデルは現在、生物を分類単位に自動的に分類するために使用されています。
ただし、これらの分類器の不正確さは、制御が困難な測定ノイズをもたらし、データの分析と解釈を著しく妨げる可能性があります。
私たちの研究では、この制限は、以前の最先端技術 (SOTA) を大幅に上回るデータ効率の高い画像トランスフォーマー (DeiT) のアンサンブルによって克服できることを示しています。
多様な起源の多数の生態学的画像データセット、およびプランクトンから昆虫、鳥、犬種、野生の動物、サンゴに至るまでの研究対象生物で結果を検証します。
テストしたすべてのデータ セットで新しい SOTA を達成し、以前の SOTA と比較して、データ セットに応じて 18.48% から 87.50% の範囲でエラーが減少し、多くの場合、完全な分類に非常に近いパフォーマンスを達成します。
DeiT のアンサンブルがより優れたパフォーマンスを発揮する主な理由は、DeiT の単一モデルのパフォーマンスによるものではなく、独立したモデルによる予測のオーバーラップが小さく、これによりアンサンブルによって得られる利益が最大化されるという事実によるものです。
これにより、DeiT アンサンブルは、生物多様性モニタリングにおける画像分類の最良の候補として位置付けられます。

要約(オリジナル)

Monitoring biodiversity is paramount to manage and protect natural resources, particularly in times of global change. Collecting images of organisms over large temporal or spatial scales is a promising practice to monitor and study biodiversity change of natural ecosystems, providing large amounts of data with minimal interference with the environment. Deep learning models are currently used to automate classification of organisms into taxonomic units. However, imprecision in these classifiers introduce a measurement noise that is difficult to control and can significantly hinder the analysis and interpretation of data. In our study, we show that this limitation can be overcome by ensembles of Data-efficient image Transformers (DeiTs), which significantly outperform the previous state of the art (SOTA). We validate our results on a large number of ecological imaging datasets of diverse origin, and organisms of study ranging from plankton to insects, birds, dog breeds, animals in the wild, and corals. On all the data sets we test, we achieve a new SOTA, with a reduction of the error with respect to the previous SOTA ranging from 18.48% to 87.50%, depending on the data set, and often achieving performances very close to perfect classification. The main reason why ensembles of DeiTs perform better is not due to the single-model performance of DeiTs, but rather to the fact that predictions by independent models have a smaller overlap, and this maximizes the profit gained by ensembling. This positions DeiT ensembles as the best candidate for image classification in biodiversity monitoring.

arxiv情報

著者 S. Kyathanahally,T. Hardeman,M. Reyes,E. Merz,T. Bulas,P. Brun,F. Pomati,M. Baity-Jesi
発行日 2022-09-22 16:22:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク