要約
クリップなどのビジョン言語モデルで長いキャプションを表現するという課題に対処します。
設計上、これらのモデルは固定された絶対位置エンコーディングによって制限され、入力を最大77トークンに制限し、より長い説明を必要とするタスクのパフォーマンスを妨げます。
最近の作業はこの限界を克服しようとしましたが、提案されたアプローチは、より長い距離にわたってトークン関係をモデル化し、単に固定された新しいトークンの長さに拡張するのに苦労しています。
代わりに、Tulipという名前の一般化可能な方法を提案し、クリップのようなモデルのトークンの長さを任意の長さにアップグレードできます。
これにより、相対的な位置エンコーディングでアーキテクチャを改善し、次に(i)元のクリップテキストエンコーダーを相対位置エンコーディングを持つエンコーダーに蒸留するトレーニング手順を実行し、(ii)長いキャプションを画像に合わせてモデルを強化します。
デフォルトの77トークンよりも長いキャプションを効果的にエンコードすることにより、モデルは、検索やテキストから画像の生成などのクロスモーダルタスクのベースラインを上回ります。
コードリポジトリは、https://github.com/ivonajdenkoska/tulipで入手できます。
要約(オリジナル)
We address the challenge of representing long captions in vision-language models, such as CLIP. By design these models are limited by fixed, absolute positional encodings, restricting inputs to a maximum of 77 tokens and hindering performance on tasks requiring longer descriptions. Although recent work has attempted to overcome this limit, their proposed approaches struggle to model token relationships over longer distances and simply extend to a fixed new token length. Instead, we propose a generalizable method, named TULIP, able to upgrade the token length to any length for CLIP-like models. We do so by improving the architecture with relative position encodings, followed by a training procedure that (i) distills the original CLIP text encoder into an encoder with relative position encodings and (ii) enhances the model for aligning longer captions with images. By effectively encoding captions longer than the default 77 tokens, our model outperforms baselines on cross-modal tasks such as retrieval and text-to-image generation. The code repository is available at https://github.com/ivonajdenkoska/tulip.
arxiv情報
著者 | Ivona Najdenkoska,Mohammad Mahdi Derakhshani,Yuki M. Asano,Nanne van Noord,Marcel Worring,Cees G. M. Snoek |
発行日 | 2025-03-28 16:47:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google