Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation


テキストから画像への取得は、意味的に関連するクロスモーダル コンテンツを取得することを目的とした、マルチメディア処理の基本的なタスクです。
従来の研究では通常、このタスクを判別問題としてアプローチし、クロスアテンション メカニズム (1 タワー フレームワーク) または共通の埋め込み空間 (2 タワー フレームワーク) を介してテキストと画像をマッチングさせてきました。
上記の問題に対処するために、AVG という名前の自己回帰ボーケン生成方法を提案します。
AVG は、画像をヴォーケン、つまりビジュアル トークンにトークン化し、テキストから画像への検索タスクをトークンからヴォーケンへの生成問題として革新的に定式化します。
AVG は、画像の視覚情報と高レベルのセマンティクスの両方との整合性を維持しながら、画像を画像の識別子として一連のヴォークンに離散化します。
広範な実験により、AVG が有効性と効率の両方で優れた結果を達成できることが実証されました。


Text-to-image retrieval is a fundamental task in multimedia processing, aiming to retrieve semantically relevant cross-modal content. Traditional studies have typically approached this task as a discriminative problem, matching the text and image via the cross-attention mechanism (one-tower framework) or in a common embedding space (two-tower framework). Recently, generative cross-modal retrieval has emerged as a new research line, which assigns images with unique string identifiers and generates the target identifier as the retrieval target. Despite its great potential, existing generative approaches are limited due to the following issues: insufficient visual information in identifiers, misalignment with high-level semantics, and learning gap towards the retrieval target. To address the above issues, we propose an autoregressive voken generation method, named AVG. AVG tokenizes images into vokens, i.e., visual tokens, and innovatively formulates the text-to-image retrieval task as a token-to-voken generation problem. AVG discretizes an image into a sequence of vokens as the identifier of the image, while maintaining the alignment with both the visual information and high-level semantics of the image. Additionally, to bridge the learning gap between generative training and the retrieval target, we incorporate discriminative training to modify the learning direction during token-to-voken training. Extensive experiments demonstrate that AVG achieves superior results in both effectiveness and efficiency.


著者 Yongqi Li,Hongru Cai,Wenjie Wang,Leigang Qu,Yinwei Wei,Wenjie Li,Liqiang Nie,Tat-Seng Chua
発行日 2024-07-24 13:39:51+00:00
