要約
トークナイザーは、大規模モデルの基本コンポーネントの 1 つとして、ビジュアル タスクにおいて長い間見落とされたり、誤解されたりしてきました。
大規模言語モデルの優れた理解力の重要な要素の 1 つは、自然言語トークナイザーが意味のある単語またはサブワードを言語の基本要素として利用することです。
対照的に、Patch Embed などのパッチベースの手法に代表される主流のビジュアル トークナイザーは、視覚の基本要素として無意味な長方形のパッチに依存しており、言語の単語やサブワードほど効果的に機能することができません。
トークナイザーの本質から始めて、ビジョン用の意味的に独立した領域 (SIR) を定義しました。
私たちは、シンプルな同種ビジュアルトークナイザー、HOOK を設計しました。
HOOK は主に、Object Perception Module (OPM) と Object Vectorization Module (OVM) の 2 つのモジュールで構成されます。
均一性を達成するために、OPM は画像を 4*4 ピクセル シードに分割し、アテンション メカニズムを利用して SIR を認識します。
OVM はクロスアテンションを使用して、同じ SIR 内のシードをマージします。
適応性を実現するために、OVM は可変数の学習可能なベクトルをクロスアテンション クエリとして定義し、トークン量の調整を可能にします。
NWPU-RESISC45、WHU-RS19 分類データセット、および GID5 セグメンテーション データセットを使用して、疎タスクと密タスクについて実験を実施しました。
結果は、HOOK によって取得された視覚的なトークンが個々のオブジェクトに対応していることを示しており、均一性を示しています。
HOOK は、2 つのタスクにおいて Patch Embed のパフォーマンスを 6\% および 10\% 上回り、比較に使用したベースラインと比較して最先端のパフォーマンスを達成しました。
1 つのイメージに 100 以上のトークンが必要な Patch Embed と比較して、HOOK では疎タスクと密タスクにそれぞれ 6 トークンと 8 トークンしか必要ないため、効率が 1.5 ~ 2.8 倍向上します。
コードは https://github.com/GeoX-Lab/Hook で入手できます。
要約(オリジナル)
The tokenizer, as one of the fundamental components of large models, has long been overlooked or even misunderstood in visual tasks. One key factor of the great comprehension power of the large language model is that natural language tokenizers utilize meaningful words or subwords as the basic elements of language. In contrast, mainstream visual tokenizers, represented by patch-based methods such as Patch Embed, rely on meaningless rectangular patches as basic elements of vision, which cannot serve as effectively as words or subwords in language. Starting from the essence of the tokenizer, we defined semantically independent regions (SIRs) for vision. We designed a simple HOmogeneous visual tOKenizer: HOOK. HOOK mainly consists of two modules: the Object Perception Module (OPM) and the Object Vectorization Module (OVM). To achieve homogeneity, the OPM splits the image into 4*4 pixel seeds and then utilizes the attention mechanism to perceive SIRs. The OVM employs cross-attention to merge seeds within the same SIR. To achieve adaptability, the OVM defines a variable number of learnable vectors as cross-attention queries, allowing for the adjustment of token quantity. We conducted experiments on the NWPU-RESISC45, WHU-RS19 classification dataset, and GID5 segmentation dataset for sparse and dense tasks. The results demonstrate that the visual tokens obtained by HOOK correspond to individual objects, which demonstrates homogeneity. HOOK outperformed Patch Embed by 6\% and 10\% in the two tasks and achieved state-of-the-art performance compared to the baselines used for comparison. Compared to Patch Embed, which requires more than one hundred tokens for one image, HOOK requires only 6 and 8 tokens for sparse and dense tasks, respectively, resulting in efficiency improvements of 1.5 to 2.8 times. The code is available at https://github.com/GeoX-Lab/Hook.
arxiv情報
著者 | Run Shao,Zhaoyang Zhang,Chao Tao,Yunsheng Zhang,Chengli Peng,Haifeng Li |
発行日 | 2024-03-27 14:18:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google