A Latent-Variable Model for Intrinsic Probing

要約

事前トレーニングされた文脈化された表現の成功により、研究者は言語情報の存在についてそれらを分析するようになりました。
実際、これらの事前トレーニングされた表現は、さまざまな NLP タスクに大きな経験的改善をもたらしており、真の言語一般化を学習していることを示唆しているため、これらの事前トレーニングされた表現がある程度の言語知識をエンコードしていると考えるのは自然です。
この研究では、表現が言語属性をエンコードしているかどうかを特定するだけでなく、この属性がどこにエンコードされているかを正確に特定することを目的とする分析手法である固有プローブに焦点を当てます。
我々は、固有プローブを構築するための新しい潜在変数定式化を提案し、対数尤度に対する扱いやすい変分近似を導き出します。
我々の結果は、我々のモデルが多用途であり、以前に文献で提案された 2 つの固有プローブよりも厳密な相互情報量推定をもたらすことを示しています。
最後に、事前訓練された表現が言語を超えて絡み合った形態構文の概念を発展させるという経験的証拠を発見しました。

要約(オリジナル)

The success of pre-trained contextualized representations has prompted researchers to analyze them for the presence of linguistic information. Indeed, it is natural to assume that these pre-trained representations do encode some level of linguistic knowledge as they have brought about large empirical improvements on a wide variety of NLP tasks, which suggests they are learning true linguistic generalization. In this work, we focus on intrinsic probing, an analysis technique where the goal is not only to identify whether a representation encodes a linguistic attribute but also to pinpoint where this attribute is encoded. We propose a novel latent-variable formulation for constructing intrinsic probes and derive a tractable variational approximation to the log-likelihood. Our results show that our model is versatile and yields tighter mutual information estimates than two intrinsic probes previously proposed in the literature. Finally, we find empirical evidence that pre-trained representations develop a cross-lingually entangled notion of morphosyntax.

arxiv情報

著者 Karolina Stańczak,Lucas Torroba Hennigen,Adina Williams,Ryan Cotterell,Isabelle Augenstein
発行日 2024-07-11 15:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク