要約
この論文では、カメラ トラップ画像の自動分類に対する代替アプローチの探索について説明します。
まず、すべての画像に対して単一のモデルを使用して、最先端の分類器のベンチマークを行います。
次に、MegaDetector と 1 つ以上の分類器および Segment Anything を組み合わせたメソッドを評価し、場所固有の過剰適合の削減に対するその影響を評価します。
最後に、ゼロショット シナリオで、DINOv2、BioCLIP、BLIP、ChatGPT などの大規模な言語と基本モデルを使用する 2 つのアプローチを提案し、テストします。
2 つの公的に利用可能なデータセット (ニュージーランドの WCT、米国南西部の CCT20) とプライベート データセット (中央ヨーロッパの CEF) に対して実行された評価により、MegaDetector と 2 つの別個の分類器を組み合わせることで最高の精度が達成されることが明らかになりました。
このアプローチにより、単一の BEiTV2 分類器の相対誤差が CCT20 で約 42\%、CEF で 48\%、WCT で 75\% 減少しました。
さらに、背景が除去されると、新しい位置での精度の誤差は半分に減ります。
DINOv2 と FAISS に基づいて提案されたゼロショット パイプラインは、競合する結果 (CCT20 と CEF でそれぞれ 1.0\% と 4.7\% 小さい) を達成しました。これは、カメラ トラップ画像分類におけるゼロショット アプローチの可能性を強調しています。
要約(オリジナル)
This paper describes the search for an alternative approach to the automatic categorization of camera trap images. First, we benchmark state-of-the-art classifiers using a single model for all images. Next, we evaluate methods combining MegaDetector with one or more classifiers and Segment Anything to assess their impact on reducing location-specific overfitting. Last, we propose and test two approaches using large language and foundational models, such as DINOv2, BioCLIP, BLIP, and ChatGPT, in a zero-shot scenario. Evaluation carried out on two publicly available datasets (WCT from New Zealand, CCT20 from the Southwestern US) and a private dataset (CEF from Central Europe) revealed that combining MegaDetector with two separate classifiers achieves the highest accuracy. This approach reduced the relative error of a single BEiTV2 classifier by approximately 42\% on CCT20, 48\% on CEF, and 75\% on WCT. Besides, as the background is removed, the error in terms of accuracy in new locations is reduced to half. The proposed zero-shot pipeline based on DINOv2 and FAISS achieved competitive results (1.0\% and 4.7\% smaller on CCT20, and CEF, respectively), which highlights the potential of zero-shot approaches for camera trap image categorization.
arxiv情報
著者 | Jiří Vyskočil,Lukas Picek |
発行日 | 2024-10-16 17:44:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google