要約
タイトル: 可変型オートエンコーダーとアテンションによる可解釈性を備えた文表現手法
要約:
– 自然言語処理で最近使用されている表現学習手法の解釈可能性を向上する手法を提案する。
– アノテーションデータがない場合、データ効率的学習と可解釈性のある表現学習に優れる可変型オートエンコーダー(VAE)を使用する。
– VAEの機能方式から不必要なコンポーネントを識別し、半教師ありVAEをより早く、小さく、簡単に設計できるようにする。
– VAEとトランスフォーマーを使用して、2つのモデルを構築し、非アノテーションデータで理解するための帰納バイアスを備えます。
– 最初のモデルであるAttention-Driven VAE(ADVAE)は、文の機能に関する情報を別々に表現し制御できる。
– 2番目のモデルであるQKVAEは、トランスフォーマーデコーダーのための別々の潜在変数を使用し、ニューラル表現の構文と意味の情報を別々に表現できる。
– 転移実験では、QKVAEは監視されたモデルと同等の性能を持ち、監視されたモデルが50Kのアノテーションサンプルを使用する場合と同等の性能を発揮する。
– さらに、QKVAEは、ADVAEに比べて構文的役割分離能力が向上している。
– 結論として、テキストデータが豊富でアノテーションが不十分な場合でも、最先端の深層学習アーキテクチャを解釈可能性に優れたものに向上させることが可能であることを示した。
要約(オリジナル)
In this thesis, we develop methods to enhance the interpretability of recent representation learning techniques in natural language processing (NLP) while accounting for the unavailability of annotated data. We choose to leverage Variational Autoencoders (VAEs) due to their efficiency in relating observations to latent generative factors and their effectiveness in data-efficient learning and interpretable representation learning. As a first contribution, we identify and remove unnecessary components in the functioning scheme of semi-supervised VAEs making them faster, smaller and easier to design. Our second and main contribution is to use VAEs and Transformers to build two models with inductive bias to separate information in latent representations into understandable concepts without annotated data. The first model, Attention-Driven VAE (ADVAE), is able to separately represent and control information about syntactic roles in sentences. The second model, QKVAE, uses separate latent variables to form keys and values for its Transformer decoder and is able to separate syntactic and semantic information in its neural representations. In transfer experiments, QKVAE has competitive performance compared to supervised models and equivalent performance to a supervised model using 50K annotated samples. Additionally, QKVAE displays improved syntactic role disentanglement capabilities compared to ADVAE. Overall, we demonstrate that it is possible to enhance the interpretability of state-of-the-art deep learning architectures for language modeling with unannotated data in situations where text data is abundant but annotations are scarce.
arxiv情報
| 著者 | Ghazi Felhi |
| 発行日 | 2023-05-04 13:16:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI