Towards Automatic Evaluation for Image Transcreation

要約

音声やテキストを翻訳するという従来のパラダイムを超えて、最近では、異なる文化間での視覚コンテンツのローカライズを容易にする画像の自動トランスクリエーションに関心が集まっています。
これを正式な機械学習 (ML) 問題として定義する試みは、自動評価メカニズムの欠如によって妨げられており、これまでの研究は人間による評価のみに依存していました。
このペーパーでは、機械翻訳 (MT) メトリクスにヒントを得た一連の自動評価メトリクスを提案することで、このギャップを埋めようとします。a) オブジェクト ベース、b) 埋め込みベース、c) VLM ベースに分類されます。
翻訳研究と現実世界のトランスクリエーションの実践から得た理論に基づいて、私たちは画像トランスクリエーションの 3 つの重要な側面、つまり文化的関連性、意味論的同等性、視覚的類似性を特定し、これらの軸に沿ってシステムを評価するための指標を設計します。
私たちの結果は、独自の VLM が文化的な関連性と意味論的な同等性を最もよく特定するのに対し、ビジョン エンコーダー表現は視覚的な類似性の測定に優れていることを示しています。
7 ヶ国にわたるメタ評価では、当社の指標が人間の評価と強く一致しており、セグメントレベルの平均相関関係は 0.55 ~ 0.87 の範囲であることが示されています。
最後に、各指標の長所と短所の説明を通じて、理論的基礎と実際の応用の両方に基づいた、自動画像トランスクリエーション評価のための堅牢なフレームワークを提供します。
私たちのコードはここにあります: https://github.com/simran-khanuja/automatic-eval-transcreation

要約(オリジナル)

Beyond conventional paradigms of translating speech and text, recently, there has been interest in automated transcreation of images to facilitate localization of visual content across different cultures. Attempts to define this as a formal Machine Learning (ML) problem have been impeded by the lack of automatic evaluation mechanisms, with previous work relying solely on human evaluation. In this paper, we seek to close this gap by proposing a suite of automatic evaluation metrics inspired by machine translation (MT) metrics, categorized into: a) Object-based, b) Embedding-based, and c) VLM-based. Drawing on theories from translation studies and real-world transcreation practices, we identify three critical dimensions of image transcreation: cultural relevance, semantic equivalence and visual similarity, and design our metrics to evaluate systems along these axes. Our results show that proprietary VLMs best identify cultural relevance and semantic equivalence, while vision-encoder representations are adept at measuring visual similarity. Meta-evaluation across 7 countries shows our metrics agree strongly with human ratings, with average segment-level correlations ranging from 0.55-0.87. Finally, through a discussion of the merits and demerits of each metric, we offer a robust framework for automated image transcreation evaluation, grounded in both theoretical foundations and practical application. Our code can be found here: https://github.com/simran-khanuja/automatic-eval-transcreation

arxiv情報

著者 Simran Khanuja,Vivek Iyer,Claire He,Graham Neubig
発行日 2025-01-10 04:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク