Analyzing The Language of Visual Tokens

要約

LLaVA や Chameleon など、視覚および言語タスク用のトランスフォーマー ベースのモデルの導入により、画像の離散トークン化表現に対する関心が新たに高まっています。
これらのモデルは多くの場合、画像パッチを自然言語の単語に似た個別のトークンとして扱い、視覚言語と人間の言語の間の統合的な調整を学習します。
しかし、これらの視覚言語の統計的挙動、つまり自然言語と同様の頻度分布、文法構造、またはトポロジーに従うかどうかについては、ほとんどわかっていません。
この論文では、自然言語中心のアプローチを採用して個別の視覚言語を分析し、顕著な類似点と根本的な相違点を明らかにします。
ビジュアル言語はZipfian分布に準拠していますが、トークンが主にオブジェクトの部分を表し、中間の粒度を示すことで、より高いトークンのイノベーションによりエントロピーが増大し、圧縮率が低下することを実証します。
また、視覚言語には一貫した文法構造が欠けており、自然言語に比べて複雑さが増し、階層構造が弱くなることも示します。
最後に、視覚モデルは他のモデルに比べて自然言語とより密接に一致しているものの、この一致は自然言語内で見られる凝集性よりも大幅に弱いままであることを示します。
これらの実験を通じて、離散視覚言語の統計的特性を理解することで、より効果的なコンピューター ビジョン モデルの設計にどのように情報を提供できるかを示します。

要約(オリジナル)

With the introduction of transformer-based models for vision and language tasks, such as LLaVA and Chameleon, there has been renewed interest in the discrete tokenized representation of images. These models often treat image patches as discrete tokens, analogous to words in natural language, learning joint alignments between visual and human languages. However, little is known about the statistical behavior of these visual languages – whether they follow similar frequency distributions, grammatical structures, or topologies as natural languages. In this paper, we take a natural-language-centric approach to analyzing discrete visual languages and uncover striking similarities and fundamental differences. We demonstrate that, although visual languages adhere to Zipfian distributions, higher token innovation drives greater entropy and lower compression, with tokens predominantly representing object parts, indicating intermediate granularity. We also show that visual languages lack cohesive grammatical structures, leading to higher perplexity and weaker hierarchical organization compared to natural languages. Finally, we demonstrate that, while vision models align more closely with natural languages than other models, this alignment remains significantly weaker than the cohesion found within natural languages. Through these experiments, we demonstrate how understanding the statistical properties of discrete visual languages can inform the design of more effective computer vision models.

arxiv情報

著者 David M. Chan,Rodolfo Corona,Joonyong Park,Cheol Jun Cho,Yutong Bai,Trevor Darrell
発行日 2024-11-07 18:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク