要約
語彙摂動に対する脆弱性は、画像キャプションの自動評価指標の重大な弱点です。
この論文では、多言語に適用可能な新しいリファレンスフリー画像キャプションメトリクスとして、このような摂動に対してロバスト性を示す Perturbation Robust Multi-Lingual CLIPScore(PR-MCS) を提案します。
摂動の堅牢性を実現するために、言語に依存しない方法でCLIPのテキストエンコーダーを微調整して、摂動したテキストを元のテキストから区別します。
PR-MCS の堅牢性を検証するために、詳細なキャプション、重要なオブジェクト、および 5 つの言語の 3,000 枚の画像のオブジェクト間の関係で構成される、新しいきめの細かい評価データセットを導入します。
私たちの実験では、PR-MCS は、5 つの言語すべてでさまざまな摂動タイプすべての語彙ノイズをキャプチャする際に、ベースライン メトリックよりも大幅に優れており、PR-MCS が語彙摂動に対して非常に堅牢であることを証明しています。
要約(オリジナル)
Vulnerability to lexical perturbation is a critical weakness of automatic evaluation metrics for image captioning. This paper proposes Perturbation Robust Multi-Lingual CLIPScore(PR-MCS), which exhibits robustness to such perturbations, as a novel reference-free image captioning metric applicable to multiple languages. To achieve perturbation robustness, we fine-tune the text encoder of CLIP with our language-agnostic method to distinguish the perturbed text from the original text. To verify the robustness of PR-MCS, we introduce a new fine-grained evaluation dataset consisting of detailed captions, critical objects, and the relationships between the objects for 3, 000 images in five languages. In our experiments, PR-MCS significantly outperforms baseline metrics in capturing lexical noise of all various perturbation types in all five languages, proving that PR-MCS is highly robust to lexical perturbations.
arxiv情報
著者 | Yongil Kim,Yerin Hwang,Hyeongu Yun,Seunghyun Yoon,Trung Bui,Kyomin Jung |
発行日 | 2023-03-15 06:37:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google