Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation

要約

本研究では、シーンテキストをソース言語(例えばヒンディー語)からターゲット言語(例えば英語)に「視覚的に」翻訳するタスクを研究する。視覚翻訳には、シーンテキストの認識と翻訳だけでなく、フォント、サイズ、背景などのソースシーンテキストの視覚的特徴を保持した翻訳画像の生成も含まれる。このタスクには、限られたコンテキストでの翻訳、翻訳と音訳の決定、固定された空間境界内での様々なテキストの長さの対応、ターゲット言語でのソースシーンテキストのフォントや背景スタイルの保持など、いくつかの課題がある。この問題に対処するために、我々は以下の貢献を行う:(i)文献で初めて、独立した問題として視覚翻訳を研究する。(ii)このタスクのベースラインとして、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端のモジュールを組み合わせた、視覚翻訳のためのカスケードフレームワークを提示する。(iii)性能向上を得るために、ベースラインの変形を設計するための、タスクに特化した一連の設計拡張を提案する。(iv)現在、既存の関連文献には、この新しいタスクに対する包括的な性能評価が欠けている。このギャップを埋めるために、視覚翻訳を評価するために設計された自動評価指標とユーザー支援評価指標を紹介する。さらに、ヒンディー語と英語の間のシーンテキストを翻訳するために提示されたベースラインを評価する。我々の実験では、大量のシーンテキスト画像に対して視覚翻訳を効果的に実行できるものの、提示されたベースラインは視覚翻訳タスクがもたらす課題に部分的にしか対処していないことが実証された。本稿で報告されたような、この新しいタスクと既存のモデルの限界は、視覚翻訳のさらなる研究を促すはずだと我々は確信している。

要約(オリジナル)

In this work, we study the task of “visually” translating scene text from a source language (e.g., Hindi) to a target language (e.g., English). Visual translation involves not just the recognition and translation of scene text but also the generation of the translated image that preserves visual features of the source scene text, such as font, size, and background. There are several challenges associated with this task, such as translation with limited context, deciding between translation and transliteration, accommodating varying text lengths within fixed spatial boundaries, and preserving the font and background styles of the source scene text in the target language. To address this problem, we make the following contributions: (i) We study visual translation as a standalone problem for the first time in the literature. (ii) We present a cascaded framework for visual translation that combines state-of-the-art modules for scene text recognition, machine translation, and scene text synthesis as a baseline for the task. (iii) We propose a set of task-specific design enhancements to design a variant of the baseline to obtain performance improvements. (iv) Currently, the existing related literature lacks any comprehensive performance evaluation for this novel task. To fill this gap, we introduce several automatic and user-assisted evaluation metrics designed explicitly for evaluating visual translation. Further, we evaluate presented baselines for translating scene text between Hindi and English. Our experiments demonstrate that although we can effectively perform visual translation over a large collection of scene text images, the presented baseline only partially addresses challenges posed by visual translation tasks. We firmly believe that this new task and the limitations of existing models, as reported in this paper, should encourage further research in visual translation.

arxiv情報

著者 Shreyas Vaidya,Arvind Kumar Sharma,Prajwal Gatti,Anand Mishra
発行日 2024-09-02 05:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク