mvHOTA: A multi-view higher order tracking accuracy metric to measure spatial and temporal associations in multi-point detection


マルチポイント トラッキングは、シーン内のポイントを検出し、一連のフレームにわたってそれらを追跡するという困難なタスクです。
F 値などの検出ベースの測定値をフレームごとに計算するだけでは、全体的なパフォーマンスを評価するには不十分です。これは、時間領域でのパフォーマンスを解釈しないためです。
利用可能な主な評価指標は、最近提案された高次追跡精度 (HOTA) 指標を使用して、KITTI などのデータセットのパフォーマンスをベンチマークするマルチオブジェクト トラッキング (MOT) メソッドに由来します。
HOTA メトリックは一時的な関連付けを考慮に入れますが、マルチカメラ設定でデータセットの空間的関連付けを分析するための調整された手段は提供しません。
さらに、オブジェクトと比較した場合のポイントの検出タスクの評価には違いがあります (ポイントの距離とバウンディング ボックスのオーバーラップ)。
したがって、この作業では、時間的および空間的な関連付けを考慮しながら、マルチポイント (マルチインスタンスおよびマルチクラス) 追跡方法の精度を判断するために、マルチビュー高次追跡メトリック (mvHOTA) を提案します。
このメトリックを使用して、以前に組織化された外科データ サイエンス チャレンジからの内視鏡ポイント検出データセットの追跡パフォーマンスを評価する方法を示します。
さらに、このユース ケースの他の調整された MOT メトリックと比較し、mvHOTA のプロパティについて説明し、提案されたマルチビュー アソシエーションとオクルージョン インデックス (OI) がオクルージョンの処理に関する方法の分析をどのように促進するかを示します。
コードは で入手できます。


Multi-point tracking is a challenging task that involves detecting points in the scene and tracking them across a sequence of frames. Computing detection-based measures like the F-measure on a frame-by-frame basis is not sufficient to assess the overall performance, as it does not interpret performance in the temporal domain. The main evaluation metric available comes from Multi-object tracking (MOT) methods to benchmark performance on datasets such as KITTI with the recently proposed higher order tracking accuracy (HOTA) metric, which is capable of providing a better description of the performance over metrics such as MOTA, DetA, and IDF1. While the HOTA metric takes into account temporal associations, it does not provide a tailored means to analyse the spatial associations of a dataset in a multi-camera setup. Moreover, there are differences in evaluating the detection task for points when compared to objects (point distances vs. bounding box overlap). Therefore in this work, we propose a multi-view higher order tracking metric (mvHOTA) to determine the accuracy of multi-point (multi-instance and multi-class) tracking methods, while taking into account temporal and spatial associations.mvHOTA can be interpreted as the geometric mean of detection, temporal, and spatial associations, thereby providing equal weighting to each of the factors. We demonstrate the use of this metric to evaluate the tracking performance on an endoscopic point detection dataset from a previously organised surgical data science challenge. Furthermore, we compare with other adjusted MOT metrics for this use-case, discuss the properties of mvHOTA, and show how the proposed multi-view Association and the Occlusion index (OI) facilitate analysis of methods with respect to handling of occlusions. The code is available at


著者 Lalith Sharan,Halvar Kelm,Gabriele Romano,Matthias Karck,Raffaele De Simone,Sandy Engelhardt
発行日 2023-01-23 10:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク