Towards Visual Text Design Transfer Across Languages

要約

ビジュアル テキスト デザインは、映画のポスターやアルバム カバーなどのマルチモーダルな形式でテーマ、感情、雰囲気を伝える上で重要な役割を果たします。
これらの視覚的要素とテキスト要素を言語間で翻訳すると、翻訳の概念が単なるテキストを超えて拡張され、美的および文体の特徴を適応させる必要があります。
これに対処するために、マルチモーダル スタイル翻訳 (MuST-Bench) という新しいタスクを導入します。これは、設計意図を維持しながら、さまざまな書記体系間で翻訳を実行するビジュアル テキスト生成モデルの能力を評価するように設計されたベンチマークです。
MuST-Bench での最初の実験では、ビジュアル デザインを伝える際のテキスト記述が不十分であるため、既存のビジュアル テキスト生成モデルが提案されたタスクに苦戦していることが明らかになりました。
これに応えて、スタイルの説明を不要にするマルチモーダル スタイル変換のフレームワークである SIGIL を紹介します。
SIGIL は、多言語設定向けのグリフ レイテント、安定したスタイル ガイダンスのための事前トレーニング済み VAE、および可読文字生成を最適化するための強化学習フィードバックを備えた OCR モデルという 3 つの革新によって画像生成モデルを強化します。
SIGIL は、視覚的な忠実性を維持しながら優れたスタイルの一貫性と可読性を実現することで、既存のベースラインを上回り、従来の説明ベースのアプローチとは一線を画しています。
私たちは、より広範な使用と探索のために、MuST-Bench を一般公開します (https://huggingface.co/datasets/yejinc/MuST-Bench)。

要約(オリジナル)

Visual text design plays a critical role in conveying themes, emotions, and atmospheres in multimodal formats such as film posters and album covers. Translating these visual and textual elements across languages extends the concept of translation beyond mere text, requiring the adaptation of aesthetic and stylistic features. To address this, we introduce a novel task of Multimodal Style Translation (MuST-Bench), a benchmark designed to evaluate the ability of visual text generation models to perform translation across different writing systems while preserving design intent. Our initial experiments on MuST-Bench reveal that existing visual text generation models struggle with the proposed task due to the inadequacy of textual descriptions in conveying visual design. In response, we introduce SIGIL, a framework for multimodal style translation that eliminates the need for style descriptions. SIGIL enhances image generation models through three innovations: glyph latent for multilingual settings, pretrained VAEs for stable style guidance, and an OCR model with reinforcement learning feedback for optimizing readable character generation. SIGIL outperforms existing baselines by achieving superior style consistency and legibility while maintaining visual fidelity, setting itself apart from traditional description-based approaches. We release MuST-Bench publicly for broader use and exploration https://huggingface.co/datasets/yejinc/MuST-Bench.

arxiv情報

著者 Yejin Choi,Jiwan Chung,Sumin Shim,Giyeong Oh,Youngjae Yu
発行日 2024-10-24 15:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク