要約
言語処理では、トランスフォーマーはテキストが圧縮されることで大きな恩恵を受けます。
これは、単純な文字の代わりに単語の断片を捉えるより大きな語彙によって実現されます。
これは多くの場合、バイト ペア エンコーディングを使用して行われます。
画像のコンテキストでは、視覚データのトークン化は通常、グローバルなコンテンツを認識せずに、量子化手法から取得された規則的なグリッドに限定されます。
私たちの取り組みでは、既存の圧縮への補完的なアドオンとして、バイト ペア エンコーディングを 1D から多次元に導入することで、ビジュアル データのトークン化を改善しています。
これは、トークン ペアのコンスタレーションをカウントし、最も頻繁に使用されるトークン ペアを新しく導入されたトークンに置き換えることによって実現されます。
多次元性によって画像の計算時間が 2 倍増加するだけなので、ImageNet のような大規模なデータセットにも民生用ハードウェアで数分以内に適用できます。
これはロスレスの前処理ステップです。
私たちの評価では、トークンの頻繁なコンスタレーションを圧縮することによって視覚データに対するトランスフォーマーのトレーニングと推論のパフォーマンスが向上していることが示されています。結果として得られるシーケンスは短くなり、情報コンテンツがより均一に分散されます。
画像内の空の領域を単一のトークンに圧縮します。
私たちの実験が示すように、これらの凝縮されたシーケンスは処理が容易です。
さらに、語彙をクラスタリングすることでこの圧縮をさらに強化する戦略を導入します。
要約(オリジナル)
In language processing, transformers benefit greatly from text being condensed. This is achieved through a larger vocabulary that captures word fragments instead of plain characters. This is often done with Byte Pair Encoding. In the context of images, tokenisation of visual data is usually limited to regular grids obtained from quantisation methods, without global content awareness. Our work improves tokenisation of visual data by bringing Byte Pair Encoding from 1D to multiple dimensions, as a complementary add-on to existing compression. We achieve this through counting constellations of token pairs and replacing the most frequent token pair with a newly introduced token. The multidimensionality only increases the computation time by a factor of 2 for images, making it applicable even to large datasets like ImageNet within minutes on consumer hardware. This is a lossless preprocessing step. Our evaluation shows improved training and inference performance of transformers on visual data achieved by compressing frequent constellations of tokens: The resulting sequences are shorter, with more uniformly distributed information content, e.g. condensing empty regions in an image into single tokens. As our experiments show, these condensed sequences are easier to process. We additionally introduce a strategy to amplify this compression further by clustering the vocabulary.
arxiv情報
著者 | Tim Elsner,Paula Usinger,Julius Nehring-Wirxel,Gregor Kobsik,Victor Czech,Yanjiang He,Isaak Lim,Leif Kobbelt |
発行日 | 2024-11-15 15:36:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google