Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks

要約

タイトル – 「Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks」
要約:
-テキストに基づく動画検索は、マルチモーダルリトリーバルタスクの中心である
-テキストからビデオを検索する目的のビルドされたデータセットの不足のため、ビデオキャプションのデータセットを再利用してモデルを評価することが多い
-エラーの評価を完璧にするため、キャプションが注釈付けられたオリジナルのビデオに関連付けられるだけであるため、他のビデオとの一致が存在すると、偽陰性のキャプション-ビデオペアを導入することができる
-そのため、この問題を解決し、新しい状態のモデルが25%の再呼び出しポイントを獲得することを示すことができた
-この問題を診断し、緩和するために、追加のキャプション-ビデオペア683Kを注釈付けてリリースした
-これらを使用して、2つの標準的なベンチマーク(MSR-VTTおよびMSVD)上の3つのモデルの効果的なスコアを再計算している
-再計算されたメトリックは、最高のモデルについて25%の再呼び出しポイントが高くなる
-さらに、テキストからビデオの検索ベンチマークに関する今後の提言をし、現在の形態でのこれらのベンチマークの引退を推奨する

要約(オリジナル)

Searching troves of videos with textual descriptions is a core multimodal retrieval task. Owing to the lack of a purpose-built dataset for text-to-video retrieval, video captioning datasets have been re-purposed to evaluate models by (1) treating captions as positive matches to their respective videos and (2) assuming all other videos to be negatives. However, this methodology leads to a fundamental flaw during evaluation: since captions are marked as relevant only to their original video, many alternate videos also match the caption, which introduces false-negative caption-video pairs. We show that when these false negatives are corrected, a recent state-of-the-art model gains 25\% recall points — a difference that threatens the validity of the benchmark itself. To diagnose and mitigate this issue, we annotate and release 683K additional caption-video pairs. Using these, we recompute effectiveness scores for three models on two standard benchmarks (MSR-VTT and MSVD). We find that (1) the recomputed metrics are up to 25\% recall points higher for the best models, (2) these benchmarks are nearing saturation for Recall@10, (3) caption length (generality) is related to the number of positives, and (4) annotation costs can be mitigated through sampling. We recommend retiring these benchmarks in their current form, and we make recommendations for future text-to-video retrieval benchmarks.

arxiv情報

著者 Pedro Rodriguez,Mahmoud Azab,Becka Silvert,Renato Sanchez,Linzy Labson,Hardik Shah,Seungwhan Moon
発行日 2023-04-19 03:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク