SeaTurtleID: A novel long-span dataset highlighting the importance of timestamps in wildlife re-identification

要約

この論文では、野生で撮影されたウミガメの写真を含む初の公開された大規模な長距離データセットである SeaTurtleID を紹介します。
このデータセットは、再識別方法のベンチマークや他のいくつかのコンピューター ビジョン タスクの評価に適しています。
このデータセットは、12 年間に 1,081 件の遭遇で収集された 400 人の固有の個人の 7,774 枚の高解像度写真で構成されています。
各写真には、ID ラベル、頭部セグメンテーション マスク、遭遇タイムスタンプなどの豊富なメタデータが付いています。
データセットの期間は 12 年であるため、タイムスタンプが含まれる公開野生動物データセットとしては最長期間となります。
このユニークな特性を利用することで、タイムスタンプはデータセットを参照セットとクエリセットに時間的に分割できるため、動物の再識別方法を公平に評価するために必要であることを示します。
特徴ベースと CNN ベースの再識別手法の両方において、時間を意識しない (ランダムな) 分割は、時間を意識した分割と比較して 100% を超えるパフォーマンスの過大評価につながる可能性があることを示します。
また、時間を意識した分割は、時間を意識しない分割よりも現実的な再識別パイプラインに対応すると主張します。
動物の再識別方法は、時間を意識した分割を使用してタイムスタンプを持つデータセットでのみテストすることをお勧めします。また、データセットの管理者には、そのような情報を関連するメタデータに含めることをお勧めします。

要約(オリジナル)

This paper introduces SeaTurtleID, the first public large-scale, long-span dataset with sea turtle photographs captured in the wild. The dataset is suitable for benchmarking re-identification methods and evaluating several other computer vision tasks. The dataset consists of 7774 high-resolution photographs of 400 unique individuals collected within 12 years in 1081 encounters. Each photograph is accompanied by rich metadata, e.g., identity label, head segmentation mask, and encounter timestamp. The 12-year span of the dataset makes it the longest-spanned public wild animal dataset with timestamps. By exploiting this unique property, we show that timestamps are necessary for an unbiased evaluation of animal re-identification methods because they allow time-aware splits of the dataset into reference and query sets. We show that time-unaware (random) splits can lead to performance overestimation of more than 100% compared to the time-aware splits for both feature- and CNN-based re-identification methods. We also argue that time-aware splits correspond to more realistic re-identification pipelines than the time-unaware ones. We recommend that animal re-identification methods should only be tested on datasets with timestamps using time-aware splits, and we encourage dataset curators to include such information in the associated metadata.

arxiv情報

著者 Kostas Papafitsoros,Lukáš Adam,Vojtěch Čermák,Lukáš Picek
発行日 2024-02-29 18:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク