Preventing Local Pitfalls in Vector Quantization via Optimal Transport

要約

ベクトル量子化ネットワーク (VQN) は、さまざまなタスクにわたって優れたパフォーマンスを示していますが、トレーニングが不安定になる傾向があり、微妙な初期化やモデルの蒸留などの手法が必要なため、トレーニング プロセスが複雑になります。
この研究では、この不安定性の主な原因として極小値の問題を特定します。
これに対処するために、最近傍検索の代わりに最適な転送方法を統合し、よりグローバルな情報に基づいた割り当てを実現します。
OptVQ は、Sinkhorn アルゴリズムを使用して最適なトランスポート問題を最適化し、それによってトレーニング プロセスの安定性と効率を向上させる新しいベクトル量子化方法です。
シンクホーン アルゴリズムに対する多様なデータ分布の影響を軽減するために、単純かつ効果的な正規化戦略を実装します。
画像再構成タスクに関する当社の包括的な実験では、OptVQ が 100% のコードブック利用率を達成し、再構成品質において現在の最先端の VQN を上回ることが実証されました。

要約(オリジナル)

Vector-quantized networks (VQNs) have exhibited remarkable performance across various tasks, yet they are prone to training instability, which complicates the training process due to the necessity for techniques such as subtle initialization and model distillation. In this study, we identify the local minima issue as the primary cause of this instability. To address this, we integrate an optimal transport method in place of the nearest neighbor search to achieve a more globally informed assignment. We introduce OptVQ, a novel vector quantization method that employs the Sinkhorn algorithm to optimize the optimal transport problem, thereby enhancing the stability and efficiency of the training process. To mitigate the influence of diverse data distributions on the Sinkhorn algorithm, we implement a straightforward yet effective normalization strategy. Our comprehensive experiments on image reconstruction tasks demonstrate that OptVQ achieves 100% codebook utilization and surpasses current state-of-the-art VQNs in reconstruction quality.

arxiv情報

著者 Borui Zhang,Wenzhao Zheng,Jie Zhou,Jiwen Lu
発行日 2024-12-19 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク