Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts

要約

フォントによって読者に与える印象は異なります。
これらの印象はフォントの形状から得られることが多いです。
ただし、フォントの印象は主観的なものであるため、フォントと印象の相関は弱く不安定です。
フォントの形状とその印象の間のこのような弱く不安定なクロスモーダル相関を捕捉するために、CLIP (Contrastive Language-Image Pre-training) に基づく新しい機械学習モデルである Impression-CLIP を提案します。
CLIP ベースのモデルを使用することにより、フォント イメージの特徴とその印象の特徴は近づけられ、フォント イメージの特徴と無関係な印象の特徴は遠ざけられます。
この手順により、フォント画像とその印象との共埋め込みが実現される。
私たちの実験では、共埋め込みを通じてフォントとインプレッション間のクロスモーダル検索を実行します。
この結果は、Impression-CLIP が最新の方法よりも優れた検索精度を実現していることを示しています。
さらに、私たちのモデルは、ノイズやタグの欠落に対する堅牢性を示しています。

要約(オリジナル)

Fonts convey different impressions to readers. These impressions often come from the font shapes. However, the correlation between fonts and their impression is weak and unstable because impressions are subjective. To capture such weak and unstable cross-modal correlation between font shapes and their impressions, we propose Impression-CLIP, which is a novel machine-learning model based on CLIP (Contrastive Language-Image Pre-training). By using the CLIP-based model, font image features and their impression features are pulled closer, and font image features and unrelated impression features are pushed apart. This procedure realizes co-embedding between font image and their impressions. In our experiment, we perform cross-modal retrieval between fonts and impressions through co-embedding. The results indicate that Impression-CLIP achieves better retrieval accuracy than the state-of-the-art method. Additionally, our model shows the robustness to noise and missing tags.

arxiv情報

著者 Yugo Kubota,Daichi Haraguchi,Seiichi Uchida
発行日 2024-02-26 07:07:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク