Learning Mutually Informed Representations for Characters and Subwords

要約

ほとんどの事前トレーニング済み言語モデルは、テキストを一連のサブワード トークンとして処理するサブワード トークン化に依存しています。
ただし、文字、サブワード、単語など、テキストの粒度が異なると、さまざまな種類の情報を含めることができます。
これまでの研究では、複数の入力粒度を組み込むことでモデルの一般化が向上することが示されていますが、各粒度に対して有用な表現を出力するものはほとんどありません。
この論文では、文字言語モデルとサブワード言語モデルを結合することを目的としたもつれモデルを紹介します。
視覚言語モデルからインスピレーションを得た私たちのモデルは、文字とサブワードを別個のモダリティとして扱い、両方の粒度について相互に情報を与えた表現を出力として生成します。
テキスト分類、固有表現認識、POS タグ付け、および文字レベルのシーケンス ラベリング (単語内コード スイッチング) に関するモデルを評価します。
特に、エンタングルメント モデルは、特にノイズの多いテキストやリソースの少ない言語が存在する場合に、バックボーン言語モデルよりも優れたパフォーマンスを発揮します。
さらに、エンタングルメント モデルは、すべての英語シーケンスのラベル付けタスクと分類タスクにおいて、より大きな事前トレーニング済みモデルよりも優れたパフォーマンスを発揮します。
私たちはコードを公開しています。

要約(オリジナル)

Most pretrained language models rely on subword tokenization, which processes text as a sequence of subword tokens. However, different granularities of text, such as characters, subwords, and words, can contain different kinds of information. Previous studies have shown that incorporating multiple input granularities improves model generalization, yet very few of them outputs useful representations for each granularity. In this paper, we introduce the entanglement model, aiming to combine character and subword language models. Inspired by vision-language models, our model treats characters and subwords as separate modalities, and it generates mutually informed representations for both granularities as output. We evaluate our model on text classification, named entity recognition, POS-tagging, and character-level sequence labeling (intraword code-switching). Notably, the entanglement model outperforms its backbone language models, particularly in the presence of noisy texts and low-resource languages. Furthermore, the entanglement model even outperforms larger pre-trained models on all English sequence labeling tasks and classification tasks. We make our code publically available.

arxiv情報

著者 Yilin Wang,Xinyi Hu,Matthew R. Gormley
発行日 2024-04-08 15:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク