要約
Visual-Language Alignment (VLA) は、CLIP の画期的な取り組み以来、多くの注目を集めています。
CLIP は良好なパフォーマンスを示しますが、典型的な直接潜在特徴アラインメントでは、その表現と類似性スコアが明確さを欠いています。
一方、語彙表現は、サンプルと語彙内の単語との間の類似性を要素が表すベクトルであり、自然なスパース表現であり、解釈可能であり、個々の単語に完全に一致します。
ただし、語彙表現は、グラウンドトゥルースの監視や誤検出の問題があるため学習が難しく、効果的にトレーニングするには複雑な設計が必要です。
この論文では、複雑な設計を行わずに両方のモダリティの統一された語彙表現を学習することにより、より解釈しやすい VLA フレームワークである LexVLA を紹介します。
DINOv2 を局所的特徴のビジュアル モデルとして使用し、生成言語モデルである Llama 2 を使用して、コンテキスト内の語彙予測機能を活用します。
誤った発見を回避するために、語彙表現が無意味な単語を誤って頻繁に起動するのを防ぐために、過剰使用ペナルティを提案します。
これら 2 つの事前トレーニング済みユニモーダル モデルは、控えめなマルチモーダル データセットを微調整することで適切に調整でき、複雑なトレーニング構成を回避できることを示します。
クロスモーダル検索ベンチマークでは、CC-12M マルチモーダル データセットでトレーニングされた LexVLA は、より大きなデータセット (例: YFCC15M) で微調整されたベースラインや、さらに大きなデータセット (例: 1.1B データ、
CC-12M)。
LexVLA を解析するために広範な実験を行っています。
コードは https://github.com/Clementine24/LexVLA で入手できます。
要約(オリジナル)
Visual-Language Alignment (VLA) has gained a lot of attention since CLIP’s groundbreaking work. Although CLIP performs well, the typical direct latent feature alignment lacks clarity in its representation and similarity scores. On the other hand, lexical representation, a vector whose element represents the similarity between the sample and a word from the vocabulary, is a natural sparse representation and interpretable, providing exact matches for individual words. However, lexical representations are difficult to learn due to no ground-truth supervision and false-discovery issues, and thus requires complex design to train effectively. In this paper, we introduce LexVLA, a more interpretable VLA framework by learning a unified lexical representation for both modalities without complex design. We use DINOv2 as our visual model for its local-inclined features and Llama 2, a generative language model, to leverage its in-context lexical prediction ability. To avoid the false discovery, we propose an overuse penalty to refrain the lexical representation from falsely frequently activating meaningless words. We demonstrate that these two pre-trained uni-modal models can be well-aligned by fine-tuning on the modest multi-modal dataset and avoid intricate training configurations. On cross-modal retrieval benchmarks, LexVLA, trained on the CC-12M multi-modal dataset, outperforms baselines fine-tuned on larger datasets (e.g., YFCC15M) and those trained from scratch on even bigger datasets (e.g., 1.1B data, including CC-12M). We conduct extensive experiments to analyze LexVLA. Codes are available at https://github.com/Clementine24/LexVLA.
arxiv情報
著者 | Yifan Li,Yikai Wang,Yanwei Fu,Dongyu Ru,Zheng Zhang,Tong He |
発行日 | 2024-11-11 13:46:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google