Towards Semantic Equivalence of Tokenization in Multimodal LLM

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚言語タスクの処理において優れた機能を実証しています。
MLLM の核心の 1 つは、視覚トークン化にあります。これには、入力視覚信号を LLM にとって最も有益な特徴表現に効率的に変換することが含まれます。
しかし、視覚と言語の間の意味論的な調整に不可欠な既存の視覚トークナイザーには依然として問題があります。
既存の方法は、視覚的な入力を積極的に断片化し、視覚的な意味論的な整合性を損ないます。
これに対処するために、この論文は新しい動的 Semantic-Equivalent Vision Tokenizer (SeTok) を提案します。これは、動的クラスタリング アルゴリズムを介して視覚的特徴を意味単位にグループ化し、画像の複雑さに基づいてトークンの数を柔軟に決定します。
結果として得られるビジョン トークンは、セマンティックの整合性を効果的に保持し、低周波と高周波の両方の視覚的特徴をキャプチャします。
SeTok を搭載した提案された MLLM (Setokim) は、実験結果から明らかなように、さまざまなタスクにわたって優れたパフォーマンスを大幅に実証します。
プロジェクト ページは https://chocowu.github.io/SeTok-web/ にあります。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in processing vision-language tasks. One of the crux of MLLMs lies in vision tokenization, which involves efficiently transforming input visual signals into feature representations that are most beneficial for LLMs. However, existing vision tokenizers, essential for semantic alignment between vision and language, remain problematic. Existing methods aggressively fragment visual input, corrupting the visual semantic integrity. To address this, this paper proposes a novel dynamic Semantic-Equivalent Vision Tokenizer (SeTok), which groups visual features into semantic units via a dynamic clustering algorithm, flexibly determining the number of tokens based on image complexity. The resulting vision tokens effectively preserve semantic integrity and capture both low-frequency and high-frequency visual features. The proposed MLLM (Setokim) equipped with SeTok significantly demonstrates superior performance across various tasks, as evidenced by our experimental results. The project page is at https://chocowu.github.io/SeTok-web/.

arxiv情報

著者 Shengqiong Wu,Hao Fei,Xiangtai Li,Jiayi Ji,Hanwang Zhang,Tat-Seng Chua,Shuicheng Yan
発行日 2024-06-07 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク