MLPs Compass: What is learned when MLPs are combined with PLMs?

要約

Transformerベースの事前学習済み言語モデルとその変種は強力な意味表現能力を示すが、PLMの追加コンポーネントから得られる情報利得を理解する問題は、この分野では未解決のままである。多層パーセプトロン(MLP)モジュールが、グラフニューラルネットワーク(GNN)をも凌駕する強固な構造捕捉能力を達成することを証明した最近の取り組みに動機づけられ、本稿では、単純なMLPが、言語情報を捕捉するPLMの既に強力な能力をさらに強化できるかどうかを定量化することを目的とする。具体的には、BERT構造に基づくMLPコンポーネントを含む、シンプルかつ効果的なプロービングフレームワークを設計し、3つの異なる言語レベルにまたがる10のプロービングタスクを網羅する広範な実験を実施する。実験結果は、MLPがPLMによる言語構造の理解を実際に強化できることを示している。我々の研究は、多様な言語構造を重視するタスクのためにMLPを活用したPLMのバリエーションを作る上で、解釈可能で貴重な洞察を提供する。

要約(オリジナル)

While Transformer-based pre-trained language models and their variants exhibit strong semantic representation capabilities, the question of comprehending the information gain derived from the additional components of PLMs remains an open question in this field. Motivated by recent efforts that prove Multilayer-Perceptrons (MLPs) modules achieving robust structural capture capabilities, even outperforming Graph Neural Networks (GNNs), this paper aims to quantify whether simple MLPs can further enhance the already potent ability of PLMs to capture linguistic information. Specifically, we design a simple yet effective probing framework containing MLPs components based on BERT structure and conduct extensive experiments encompassing 10 probing tasks spanning three distinct linguistic levels. The experimental results demonstrate that MLPs can indeed enhance the comprehension of linguistic structure by PLMs. Our research provides interpretable and valuable insights into crafting variations of PLMs utilizing MLPs for tasks that emphasize diverse linguistic structures.

arxiv情報

著者 Li Zhou,Wenyu Chen,Yong Cao,Dingyi Zeng,Wanlong Liu,Hong Qu
発行日 2024-01-03 11:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク