要約
ベクトル量子化は、連続表現を離散ベクトルのセットに離散化する機械学習の手法です。
これは、大規模言語モデル、拡散モデル、その他の生成モデルのデータ表現のトークン化に広く使用されています。
普及しているにもかかわらず、生成モデルにおけるベクトル量子化の特性と動作は、ほとんど研究されていないままです。
この研究では、ベクトル量子化における表現崩壊、つまりコードブック トークンまたは潜在的な埋め込みが値の限られたサブセットに収束することで識別力を失う重大な劣化を調査します。
この崩壊により、多様なデータ パターンを捕捉するモデルの能力が根本的に損なわれます。
合成データセットと実際のデータセットの両方を活用することで、各タイプの崩壊とトリガー条件の重大度を特定します。
私たちの分析により、初期化の制限とエンコーダーの容量の制限により、トークンの崩壊と埋め込みの崩壊が発生することが明らかになりました。
これらの調査結果に基づいて、私たちはそれぞれの崩壊を軽減することを目的とした潜在的な解決策を提案します。
私たちの知る限り、これはベクトル量子化における表現崩壊の問題を調査した最初の包括的な研究です。
要約(オリジナル)
Vector quantization is a technique in machine learning that discretizes continuous representations into a set of discrete vectors. It is widely employed in tokenizing data representations for large language models, diffusion models, and other generative models. Despite its prevalence, the characteristics and behaviors of vector quantization in generative models remain largely underexplored. In this study, we investigate representation collapse in vector quantization – a critical degradation where codebook tokens or latent embeddings lose their discriminative power by converging to a limited subset of values. This collapse fundamentally compromises the model’s ability to capture diverse data patterns. By leveraging both synthetic and real datasets, we identify the severity of each type of collapses and triggering conditions. Our analysis reveals that restricted initialization and limited encoder capacity result in tokens collapse and embeddings collapse. Building on these findings, we propose potential solutions aimed at mitigating each collapse. To the best of our knowledge, this is the first comprehensive study examining representation collapsing problems in vector quantization.
arxiv情報
著者 | Wenhao Zhao,Qiran Zou,Rushi Shah,Dianbo Liu |
発行日 | 2024-11-25 16:32:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google