Knowledge of Pretrained Language Models on Surface Information of Tokens

要約

事前トレーニングされた言語モデルはトークンの表面情報に関する知識を持っていますか?
事前学習済み言語モデルによって取得された単語またはサブワード埋め込みに格納されている表面情報を、トークンの長さ、部分文字列、およびトークン構成の観点から調べました。
さらに、トークン表面に関する知識を生成するモデルの能力を評価しました。
私たちは、主に英語と日本語のコーパスでトレーニングされた 12 の事前トレーニング済み言語モデルに焦点を当てました。
実験結果は、事前トレーニングされた言語モデルはトークンの長さと部分文字列に関する知識を持っていますが、トークンの構成に関する知識を持っていないことを示しています。
さらに、この結果は、取得した知識を効果的に活用するという点でデコーダ側にボトルネックがあることを示唆しています。

要約(オリジナル)

Do pretrained language models have knowledge regarding the surface information of tokens? We examined the surface information stored in word or subword embeddings acquired by pretrained language models from the perspectives of token length, substrings, and token constitution. Additionally, we evaluated the ability of models to generate knowledge regarding token surfaces. We focused on 12 pretrained language models that were mainly trained on English and Japanese corpora. Experimental results demonstrate that pretrained language models have knowledge regarding token length and substrings but not token constitution. Additionally, the results imply that there is a bottleneck on the decoder side in terms of effectively utilizing acquired knowledge.

arxiv情報

著者 Tatsuya Hiraoka,Naoaki Okazaki
発行日 2024-02-22 15:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク