Subobject-level Image Tokenization

要約

トランスフォーマーベースのビジョンモデルは通常、画像を入力単位として固定サイズの正方形パッチにトークン化しますが、これでは画像コンテンツへの適応性に欠け、固有のピクセルグループ化構造が見落とされます。
言語モデルで広く採用されているサブワードトークン化に触発されて、我々はサブオブジェクトレベルでの画像トークナイザーを提案します。サブオブジェクトは、セグメンテーションモデル(たとえば、セグメントエニシングモデル)によって取得された意味的に意味のある画像セグメントによって表されます。
サブオブジェクトのトークン化に基づいた学習システムを実装するために、まず、サブオブジェクトの包括的なセグメンテーションを効率的に生成する Direct Segment Anything Model (DirectSAM) を導入しました。次に、サブオブジェクトをコンパクトな潜在ベクトルに埋め込み、ビジョン言語学習用の大規模な言語モデルに入力します。
経験的な結果は、従来のパッチレベルのトークン化と比較して、サブオブジェクトレベルのトークン化により、画像をオブジェクトおよび属性の説明に変換する効率的な学習が大幅に促進されることを示しました。
コードとモデルは https://github.com/ChenDelong1999/subobjects でオープンソース化されています。

要約(オリジナル)

Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Direct Segment Anything Model (DirectSAM) that efficiently produces comprehensive segmentation of subobjects, then embed subobjects into compact latent vectors and fed them into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models are open-sourced at https://github.com/ChenDelong1999/subobjects.

arxiv情報

著者 Delong Chen,Samuel Cahyawijaya,Jianfeng Liu,Baoyuan Wang,Pascale Fung
発行日 2024-04-23 13:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク