要約
先駆的なビジョン言語モデルとして、Clip(コントラスト言語イメージのプリトレーニング)は、さまざまなドメインと幅広い下流の視覚言語タスクで大幅に成功しています。
ただし、人気のあるクリップモデルのテキストエンコーダーは、77のテキストトークンのみの処理に限定されているため、詳細が豊富なキャプションが長く効果的に処理する能力が制約されます。
さらに、クリップモデルは、詳細な視覚情報とテキスト情報を効果的にキャプチャするのに苦労することがよくあります。これにより、細粒分析が必要なタスクでパフォーマンスが妨げられます。
これらの制限に対処するために、クリップの機能を拡張する新しいアプローチ\ textbf {finelip}を提示します。
Finelipは、\ textBf {fine} grainedアラインメントを組み込むことにより、クロスモーダルテキストイメージマッピングを強化します。
Finelipは、最初に位置埋め込みを拡張して長いテキストを処理し、その後、ローカル画像とテキストトークンの動的集約が続きます。
その後、集約された結果を使用して、細粒のトークンからトークンへのクロスモーダルアライメントを実施します。
データセット上のモデルを検証し、2つのタスクにわたって長く詳細なキャプションを使用します:ゼロショットクロスモーダル検索とテキストから画像の生成。
定量的および定性的な実験結果は、既存の最先端のアプローチを上回るFinelIPの有効性を示しています。
さらに、包括的なアブレーション研究は、FinelIP内の主要な設計要素の利点を検証します。
要約(オリジナル)
As a pioneering vision-language model, CLIP (Contrastive Language-Image Pre-training) has achieved significant success across various domains and a wide range of downstream vision-language tasks. However, the text encoders in popular CLIP models are limited to processing only 77 text tokens, which constrains their ability to effectively handle longer, detail-rich captions. Additionally, CLIP models often struggle to effectively capture detailed visual and textual information, which hampers their performance on tasks that require fine-grained analysis. To address these limitations, we present a novel approach, \textbf{FineLIP}, that extends the capabilities of CLIP. FineLIP enhances cross-modal text-image mapping by incorporating \textbf{Fine}-grained alignment with \textbf{L}onger text input within the CL\textbf{IP}-style framework. FineLIP first extends the positional embeddings to handle longer text, followed by the dynamic aggregation of local image and text tokens. The aggregated results are then used to enforce fine-grained token-to-token cross-modal alignment. We validate our model on datasets with long, detailed captions across two tasks: zero-shot cross-modal retrieval and text-to-image generation. Quantitative and qualitative experimental results demonstrate the effectiveness of FineLIP, outperforming existing state-of-the-art approaches. Furthermore, comprehensive ablation studies validate the benefits of key design elements within FineLIP.
arxiv情報
著者 | Mothilal Asokan,Kebin Wu,Fatima Albreiki |
発行日 | 2025-04-02 17:19:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google