要約
Vision-Language Translation(VLT)は、画像に組み込まれた多言語テキストを正確に認識し、視覚的なコンテキストをサポートしてターゲット言語に変換する必要がある挑戦的なタスクです。
最近の大きなビジョン言語モデル(LVLMS)は、強力な多言語と視覚的理解能力を実証していますが、VLTでのパフォーマンスの体系的な評価と理解の欠如があります。
この作業では、データ品質、モデルアーキテクチャ、評価メトリックの3つの重要な観点からVLTの包括的な研究を提示します。
(1)既存のデータセット、特にセマンティックおよび文化的忠実度の重大な制限を特定し、OCR補正注釈を備えた多言語で並行した人間に検証されたデータセットであるAibtransを導入します。
(2)エンドツーエンドおよびカスケードアーキテクチャにわたって、11の商用LVLMS/LLMSと6つの最先端のオープンソースモデルをベンチマークし、OCRの依存と対照的な発電と推論行動を明らかにします。
(3)さまざまなコンテキストの複雑さの下でメトリック信頼性の問題に対処するための密度認識評価を提案し、DAスコアをより堅牢な翻訳品質の尺度として導入します。
これらの調査結果に基づいて、VLTの新しい評価ベンチマークを確立します。
特に、高リソースの言語ペアで微調整されたLVLMSが横断的なパフォーマンスを低下させることを観察し、一般化能力を犠牲にすることなくLVLMSをVLTに効果的に適応させるバランスのとれた多言語の微調整戦略を提案します。
要約(オリジナル)
Vision-Language Translation (VLT) is a challenging task that requires accurately recognizing multilingual text embedded in images and translating it into the target language with the support of visual context. While recent Large Vision-Language Models (LVLMs) have demonstrated strong multilingual and visual understanding capabilities, there is a lack of systematic evaluation and understanding of their performance on VLT. In this work, we present a comprehensive study of VLT from three key perspectives: data quality, model architecture, and evaluation metrics. (1) We identify critical limitations in existing datasets, particularly in semantic and cultural fidelity, and introduce AibTrans — a multilingual, parallel, human-verified dataset with OCR-corrected annotations. (2) We benchmark 11 commercial LVLMs/LLMs and 6 state-of-the-art open-source models across end-to-end and cascaded architectures, revealing their OCR dependency and contrasting generation versus reasoning behaviors. (3) We propose Density-Aware Evaluation to address metric reliability issues under varying contextual complexity, introducing the DA Score as a more robust measure of translation quality. Building upon these findings, we establish a new evaluation benchmark for VLT. Notably, we observe that fine-tuning LVLMs on high-resource language pairs degrades cross-lingual performance, and we propose a balanced multilingual fine-tuning strategy that effectively adapts LVLMs to VLT without sacrificing their generalization ability.
arxiv情報
著者 | Xintong Wang,Jingheng Pan,Yixiao Liu,Xiaohu Zhao,Chenyang Lyu,Minghao Wu,Chris Biemann,Longyue Wang,Linlong Xu,Weihua Luo,Kaifu Zhang |
発行日 | 2025-06-13 14:23:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google