Improving Semantic Control in Discrete Latent Spaces with Transformer Quantized Variational Autoencoders

要約

変分オートエンコーダー (VAE) の潜在空間に対する正確なセマンティック制御を達成することは、基礎となる生成メカニズムをより適切に局所化し、説明し、改善できるため、NLP の下流タスクにとって重要な価値を持ちます。
しかし、最近の研究では、主に変分ボトルネックにおける意味論的情報の必然的な損失と、復号メカニズムに対する制御の制限により、一貫した結果を達成するのに苦労しています。
これらの課題を克服するために、ベクトル量子化変分オートエンコーダ (VQVAE) の離散潜在空間を調査し、Transformer ベースの VAE でのセマンティック制御と生成を改善します。
特に、VQVAE の制御性を利用して T5 のセルフアテンション メカニズムをトークン レベルでガイドし、その一般化機能を最大限に活用する新しいモデルである T5VQVAE を提案します。
実験結果は、T5VQVAE が、文や数式の自動エンコード、テキスト転送、推論などのさまざまなタスクにわたる意味情報の制御性と保存の点で、Optimus を含む既存の最先端の VAE モデルよりも優れていることを示しています。
さらに、T5VQVAE は改善された推論機能を示し、下流の自然言語および記号推論タスクへの潜在的なアプリケーションを示唆しています。

要約(オリジナル)

Achieving precise semantic control over the latent spaces of Variational AutoEncoders (VAEs) holds significant value for downstream tasks in NLP as the underlying generative mechanisms could be better localised, explained and improved upon. Recent research, however, has struggled to achieve consistent results, primarily due to the inevitable loss of semantic information in the variational bottleneck and limited control over the decoding mechanism. To overcome these challenges, we investigate discrete latent spaces in Vector Quantized Variational AutoEncoders (VQVAEs) to improve semantic control and generation in Transformer-based VAEs. In particular, We propose T5VQVAE, a novel model that leverages the controllability of VQVAEs to guide the self-attention mechanism in T5 at the token-level, exploiting its full generalization capabilities. Experimental results indicate that T5VQVAE outperforms existing state-of-the-art VAE models, including Optimus, in terms of controllability and preservation of semantic information across different tasks such as auto-encoding of sentences and mathematical expressions, text transfer, and inference. Moreover, T5VQVAE exhibits improved inference capabilities, suggesting potential applications for downstream natural language and symbolic reasoning tasks.

arxiv情報

著者 Yingji Zhang,Danilo S. Carvalho,Marco Valentino,Ian Pratt-Hartmann,Andre Freitas
発行日 2024-02-01 16:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク