The Impact of Word Splitting on the Semantic Content of Contextualized Word Representations

要約

言語モデルから文脈化された単語表現を導出する場合、サブワードに分割された語彙外 (OOV) 単語の表現を取得する方法を決定する必要があります。
これらの単語を単一のベクトルで表現する最善の方法は何ですか?また、これらの表現は語彙内の単語より品質が劣るのでしょうか?
OOV 単語を含む意味的類似性タスクに関して、さまざまなモデルからの埋め込みの固有評価を実行します。
私たちの分析では、他の興味深い発見の中でも特に、分割された単語の表現の品質は、常にではありませんが、既知の単語の埋め込みの品質よりも悪いことが明らかになりました。
ただし、それらの類似度の値は注意して解釈する必要があります。

要約(オリジナル)

When deriving contextualized word representations from language models, a decision needs to be made on how to obtain one for out-of-vocabulary (OOV) words that are segmented into subwords. What is the best way to represent these words with a single vector, and are these representations of worse quality than those of in-vocabulary words? We carry out an intrinsic evaluation of embeddings from different models on semantic similarity tasks involving OOV words. Our analysis reveals, among other interesting findings, that the quality of representations of words that are split is often, but not always, worse than that of the embeddings of known words. Their similarity values, however, must be interpreted with caution.

arxiv情報

著者 Aina Garí Soler,Matthieu Labeau,Chloé Clavel
発行日 2024-02-22 15:04:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク