Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation

要約

テキストから画像への取得は、意味的に関連するクロスモーダル コンテンツを取得することを目的とした、マルチメディア処理の基本的なタスクです。
従来の研究では通常、このタスクを判別問題としてアプローチし、クロスアテンション メカニズム (1 タワー フレームワーク) または共通の埋め込み空間 (2 タワー フレームワーク) を介してテキストと画像をマッチングさせてきました。
最近、画像に固有の文字列識別子を割り当て、検索対象となるターゲット識別子を生成する生成的クロスモーダル検索が新しい研究ラインとして登場しました。
その大きな可能性にもかかわらず、既存の生成アプローチは、識別子の不十分な視覚情報、高レベルのセマンティクスとの不整合、検索ターゲットに対する学習ギャップといった問題により制限されています。
上記の問題に対処するために、AVG という名前の自己回帰ボーケン生成方法を提案します。
AVG は、画像をヴォーケン、つまりビジュアル トークンにトークン化し、テキストから画像への検索タスクをトークンからヴォーケンへの生成問題として革新的に定式化します。
AVG は、画像の視覚情報と高レベルのセマンティクスの両方との整合性を維持しながら、画像を画像の識別子として一連のヴォークンに離散化します。
さらに、生成トレーニングと検索ターゲットの間の学習ギャップを埋めるために、トークンからボーケンへのトレーニング中に学習の方向を修正する弁別トレーニングを組み込みます。
広範な実験により、AVG が有効性と効率の両方で優れた結果を達成できることが実証されました。

要約(オリジナル)

Text-to-image retrieval is a fundamental task in multimedia processing, aiming to retrieve semantically relevant cross-modal content. Traditional studies have typically approached this task as a discriminative problem, matching the text and image via the cross-attention mechanism (one-tower framework) or in a common embedding space (two-tower framework). Recently, generative cross-modal retrieval has emerged as a new research line, which assigns images with unique string identifiers and generates the target identifier as the retrieval target. Despite its great potential, existing generative approaches are limited due to the following issues: insufficient visual information in identifiers, misalignment with high-level semantics, and learning gap towards the retrieval target. To address the above issues, we propose an autoregressive voken generation method, named AVG. AVG tokenizes images into vokens, i.e., visual tokens, and innovatively formulates the text-to-image retrieval task as a token-to-voken generation problem. AVG discretizes an image into a sequence of vokens as the identifier of the image, while maintaining the alignment with both the visual information and high-level semantics of the image. Additionally, to bridge the learning gap between generative training and the retrieval target, we incorporate discriminative training to modify the learning direction during token-to-voken training. Extensive experiments demonstrate that AVG achieves superior results in both effectiveness and efficiency.

arxiv情報

著者 Yongqi Li,Hongru Cai,Wenjie Wang,Leigang Qu,Yinwei Wei,Wenjie Li,Liqiang Nie,Tat-Seng Chua
発行日 2024-07-24 13:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク