Evaluation of Multilingual Image Captioning: How far can we get with CLIP models?

要約

言語の流encyさと視覚コンテンツへのセマンティック対応の両方を見ると、画像キャプションの評価は、かなりの努力を目撃しました。
それでも、クリップスコアメトリックなどの進歩にもかかわらず、多言語キャプション評価は比較的未開拓のままです。
この作業では、多言語設定でのクリップススコアバリアントの評価に関連するいくつかの戦略と広範な実験を提示します。
多言語テストデータの欠如に対処するために、2つの異なる戦略を検討します。（1）人間の判断を伴う品質認識マシン翻訳データセットを使用し、（2）セマンティック推論と推論をターゲットにする多言語データセットを再利用することを検討します。
私たちの結果は、言語間で一般化し、複雑な言語的課題に対処するための微調ューされた多言語モデルの可能性を強調しています。
機械翻訳データを使用したテストは、多言語のクリップススコアモデルが異なる言語にわたる人間の判断と高い相関を維持できることを示しており、ネイティブな多言語および多文化データを使用した追加のテストは、高品質の評価をさらに認めています。

要約(オリジナル)

The evaluation of image captions, looking at both linguistic fluency and semantic correspondence to visual contents, has witnessed a significant effort. Still, despite advancements such as the CLIPScore metric, multilingual captioning evaluation has remained relatively unexplored. This work presents several strategies, and extensive experiments, related to evaluating CLIPScore variants in multilingual settings. To address the lack of multilingual test data, we consider two different strategies: (1) using quality aware machine-translated datasets with human judgements, and (2) re-purposing multilingual datasets that target semantic inference and reasoning. Our results highlight the potential of finetuned multilingual models to generalize across languages and to handle complex linguistic challenges. Tests with machine-translated data show that multilingual CLIPScore models can maintain a high correlation with human judgements across different languages, and additional tests with natively multilingual and multicultural data further attest to the high-quality assessments.

arxiv情報

著者	Gonçalo Gomes,Chrysoula Zerva,Bruno Martins
発行日	2025-02-10 16:00:00+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Evaluation of Multilingual Image Captioning: How far can we get with CLIP models?

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー