Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

要約

コンピュータービジョンの方法は、生態学的および生物学的ワークフローを合理化するかなりの可能性を実証しており、研究コミュニティが利用できるデータセットとモデルの数が増えています。
ただし、これらのリソースは、機械学習メトリックを使用した評価に主に焦点を当てており、アプリケーションがダウンストリーム分析にどのように影響するかを比較的強調していません。
最終的なユースケースのコンテキストでモデルパフォーマンスを直接表すアプリケーション固有のメトリックを使用して、モデルを評価する必要があると主張します。
この引数をサポートするために、2つの異なるケーススタディを提示します。(1)ビデオベースの動作分類器を使用した場合のカメラトラップ距離サンプリングでチンパンジーの存在量と密度を推定し、(2)3D姿勢推定器を使用して鳩の頭回転を推定する。
強力な機械学習パフォーマンス(87%MAP)を持つモデルでさえ、専門家由来のデータと比較して豊富な推定値の矛盾につながるデータを生成できることを示しています。
同様に、姿勢推定のための最高のパフォーマンスモデルは、ハトの視線方向の最も正確な推論を生成しません。
これらの調査結果に動機付けられているため、研究者は生態学的/生物学的データセットにアプリケーション固有のメトリックを統合し、下流のアプリケーションのコンテキストでモデルをベンチマークし、モデルのアプリケーションワークフローへの統合を促進することを求めています。

要約(オリジナル)

Computer vision methods have demonstrated considerable potential to streamline ecological and biological workflows, with a growing number of datasets and models becoming available to the research community. However, these resources focus predominantly on evaluation using machine learning metrics, with relatively little emphasis on how their application impacts downstream analysis. We argue that models should be evaluated using application-specific metrics that directly represent model performance in the context of its final use case. To support this argument, we present two disparate case studies: (1) estimating chimpanzee abundance and density with camera trap distance sampling when using a video-based behaviour classifier and (2) estimating head rotation in pigeons using a 3D posture estimator. We show that even models with strong machine learning performance (e.g., 87% mAP) can yield data that leads to discrepancies in abundance estimates compared to expert-derived data. Similarly, the highest-performing models for posture estimation do not produce the most accurate inferences of gaze direction in pigeons. Motivated by these findings, we call for researchers to integrate application-specific metrics in ecological/biological datasets, allowing for models to be benchmarked in the context of their downstream application and to facilitate better integration of models into application workflows.

arxiv情報

著者 Alex Hoi Hang Chan,Otto Brookes,Urs Waldmann,Hemal Naik,Iain D. Couzin,Majid Mirmehdi,Noël Adiko Houa,Emmanuelle Normand,Christophe Boesch,Lukas Boesch,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt,Fumihiro Kano
発行日 2025-05-06 10:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク