Diagnosing Human-object Interaction Detectors

要約

我々は、人間と物体の相互作用(HOI)検出における著しい進歩を目撃してきた。しかしながら、要約指標としてのmAP(平均平均精度)スコアへの依存は、モデル性能のニュアンス(例えば、あるモデルが他のモデルより優れている理由)に対する十分な洞察を提供せず、この分野における更なる技術革新を妨げる可能性がある。この問題に対処するため、本稿では、物体検出診断ツールボックスの成功にヒントを得て、HOI検出モデルの詳細な定量的ブレークダウン分析を提供する診断ツールボックスを紹介する。我々はまずHOI検出のパイプラインの全体的な調査を行う。エラーのセットとそれぞれのエラーを修正するためのオラクルを定義することで、各エラーを修正することで得られるmAPの改善に従って、異なるエラーの重要性を定量的に分析することができる。次に、HOI検出の2つのサブタスクである、人間と物体のペア検出とインタラクション分類をそれぞれ掘り下げる。最初の検出タスクでは、地上真実の人間と物体のペアのカバー率と検出結果のノイズレベルを計算する。第二の分類タスクでは、検出結果の正負を区別するモデルの性能を測定し、人間と物体のペアが正しく検出された場合に、実際のインタラクションを分類する。我々は8つの最先端のHOI検出モデルを分析し、将来の研究を促進するための貴重な診断洞察を提供する。例えば、我々の診断結果は、最先端モデルRLIPv2が、主にマルチラベル相互作用分類精度を大幅に向上させることにより、他のモデルを凌駕することを示している。我々のツールボックスは様々なデータセットの様々な手法に適用可能であり、https://github.com/neu-vi/Diag-HOI。

要約(オリジナル)

We have witnessed significant progress in human-object interaction (HOI) detection. The reliance on mAP (mean Average Precision) scores as a summary metric, however, does not provide sufficient insight into the nuances of model performance (e.g., why one model is better than another), which can hinder further innovation in this field. To address this issue, in this paper, we introduce a diagnosis toolbox to provide detailed quantitative break-down analysis of HOI detection models, inspired by the success of object detection diagnosis toolboxes. We first conduct holistic investigations in the pipeline of HOI detection. By defining a set of errors and the oracles to fix each of them, we can have a quantitative analysis of the significance of different errors according to the mAP improvement obtained from fixing each error. We then delve into two sub-tasks of HOI detection: human-object pair detection and interaction classification, respectively. For the first detection task, we compute the coverage of ground-truth human-object pairs as well as the noisiness level in the detection results. For the second classification task, we measure a model’s performance of differentiating positive and negative detection results and also classifying the actual interactions when the human-object pairs are correctly detected. We analyze eight state-of-the-art HOI detection models and provide valuable diagnosis insights to foster future research. For instance, our diagnosis shows that state-of-the-art model RLIPv2 outperforms others mainly because it significantly improves the multi-label interaction classification accuracy. Our toolbox is applicable for different methods across different datasets and available at https://github.com/neu-vi/Diag-HOI.

arxiv情報

著者 Fangrui Zhu,Yiming Xie,Weidi Xie,Huaizu Jiang
発行日 2023-12-01 18:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク