Towards Semantic Equivalence of Tokenization in Multimodal LLM

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚言語タスクの処理において優れた機能を実証しています。
MLLM の核心の 1 つは、視覚トークン化にあります。これには、入力視覚信号を LLM にとって最も有益な特徴表現に効率的に変換することが含まれます。
しかし、視覚と言語の間の意味論的な調整に不可欠な既存の視覚トークナイザーには依然として問題があります。
既存の方法は、視覚的な入力を積極的に断片化し、視覚的な意味論的な整合性を損ないます。
これに対処するために、この論文は新しい動的 Semantic-Equivalent Vision Tokenizer (SeTok) を提案します。これは、動的クラスタリングアルゴリズムを介して視覚的特徴を意味単位にグループ化し、画像の複雑さに基づいてトークンの数を柔軟に決定します。
結果として得られるビジョントークンは、セマンティックの整合性を効果的に保持し、低周波と高周波の両方の視覚的特徴をキャプチャします。
SeTok を搭載した提案された MLLM (Setokim) は、実験結果から明らかなように、さまざまなタスクにわたって優れたパフォーマンスを大幅に実証します。
プロジェクトページは https://chocowu.github.io/SeTok-web/ にあります。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in processing vision-language tasks. One of the crux of MLLMs lies in vision tokenization, which involves efficiently transforming input visual signals into feature representations that are most beneficial for LLMs. However, existing vision tokenizers, essential for semantic alignment between vision and language, remain problematic. Existing methods aggressively fragment visual input, corrupting the visual semantic integrity. To address this, this paper proposes a novel dynamic Semantic-Equivalent Vision Tokenizer (SeTok), which groups visual features into semantic units via a dynamic clustering algorithm, flexibly determining the number of tokens based on image complexity. The resulting vision tokens effectively preserve semantic integrity and capture both low-frequency and high-frequency visual features. The proposed MLLM (Setokim) equipped with SeTok significantly demonstrates superior performance across various tasks, as evidenced by our experimental results. The project page is at https://chocowu.github.io/SeTok-web/.

arxiv情報

著者	Shengqiong Wu,Hao Fei,Xiangtai Li,Jiayi Ji,Hanwang Zhang,Tat-Seng Chua,Shuicheng Yan
発行日	2024-06-07 17:55:43+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Towards Semantic Equivalence of Tokenization in Multimodal LLM

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー