Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion

要約

本稿では、オープン語彙セグメンテーションで採用されている評価メトリクスの問題点を強調する。すなわち、評価プロセスは、予測されたカテゴリとグランドトゥルースのカテゴリ間の類似性を考慮することなく、ゼロショットまたはクロスデータセットパイプラインのクローズドセットメトリクスに大きく依存している。この問題に取り組むため、我々はまず、包括的な定量分析とユーザ調査により、WordNet言語統計、テキスト埋め込み、言語モデルを用いて、2つのカテゴリ単語間の11の類似度測定を調査する。これらの調査結果を基に、3つのオープン語彙セグメンテーションタスクに合わせた新しい評価指標、すなわちOpen mIoU、Open AP、Open PQを設計した。提案した評価指標を、3つのセグメンテーションタスクの12のオープン語彙メソッドでベンチマークした。類似度距離の相対的な主観性にもかかわらず、我々の評価指標が既存のオープン語彙セグメンテーション手法のオープン能力を評価できることを実証した。我々の研究が、モデルのオープン能力を評価する方法について、コミュニティに新しい考え方をもたらすことを期待している。評価コードはgithubで公開されている。

要約(オリジナル)

In this paper, we highlight a problem of evaluation metrics adopted in the open-vocabulary segmentation. That is, the evaluation process still heavily relies on closed-set metrics on zero-shot or cross-dataset pipelines without considering the similarity between predicted and ground truth categories. To tackle this issue, we first survey eleven similarity measurements between two categorical words using WordNet linguistics statistics, text embedding, and language models by comprehensive quantitative analysis and user study. Built upon those explored measurements, we designed novel evaluation metrics, namely Open mIoU, Open AP, and Open PQ, tailored for three open-vocabulary segmentation tasks. We benchmarked the proposed evaluation metrics on 12 open-vocabulary methods of three segmentation tasks. Even though the relative subjectivity of similarity distance, we demonstrate that our metrics can still well evaluate the open ability of the existing open-vocabulary segmentation methods. We hope that our work can bring with the community new thinking about how to evaluate the open ability of models. The evaluation code is released in github.

arxiv情報

著者 Hao Zhou,Tiancheng Shen,Xu Yang,Hai Huang,Xiangtai Li,Lu Qi,Ming-Hsuan Yang
発行日 2023-11-06 18:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク