Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP

要約

CLIP などの視覚言語モデル (VLM) 内のテキスト エンコーダーは、テキスト入力を画像と共有される埋め込み空間に変換する際に重要な役割を果たし、それによって自然言語による視覚タスクの解釈分析を容易にします。
文脈に応じて文内のさまざまなテキスト要素の重要性が異なるにもかかわらず、テキスト埋め込みを構築する際の重要性の変動を説明する取り組みが不足していました。
私たちは、制御性も組み込んだ解釈可能なテキスト埋め込み (SToRI) を構築するためのセマンティック トークン再重み付けのフレームワークを提案します。
SToRI は、文脈上の重要性に基づいてセマンティック要素に異なる重み付けを行うことで、CLIP のテキスト エンコード プロセスを改良し、データ駆動型の洞察やユーザーの好みに応じて強調をより細かく制御できるようにします。
SToRI の有効性は、少数ショット画像の分類とユーザーの好みに合わせた画像検索に関する包括的な実験を通じて実証されています。

要約(オリジナル)

A text encoder within Vision-Language Models (VLMs) like CLIP plays a crucial role in translating textual input into an embedding space shared with images, thereby facilitating the interpretative analysis of vision tasks through natural language. Despite the varying significance of different textual elements within a sentence depending on the context, efforts to account for variation of importance in constructing text embeddings have been lacking. We propose a framework of Semantic Token Reweighting to build Interpretable text embeddings (SToRI), which incorporates controllability as well. SToRI refines the text encoding process in CLIP by differentially weighting semantic elements based on contextual importance, enabling finer control over emphasis responsive to data-driven insights and user preferences. The efficacy of SToRI is demonstrated through comprehensive experiments on few-shot image classification and image retrieval tailored to user preferences.

arxiv情報

著者 Eunji Kim,Kyuhong Shim,Simyung Chang,Sungroh Yoon
発行日 2024-10-16 14:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク