Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement

要約

言語モデルのトークン化とパフォーマンスの関係は、未解決の研究分野です。
ここでは、さまざまなトークン化スキームがスペイン語の複数形の番号一致にどのような影響を与えるかを調査します。
形態学的に整列されたトークン化は、トレーニング中にそのようにトークン化されない単語に対して人為的に誘導された場合でも、他のトークン化スキームと同様に機能することがわかりました。
次に、異なる複数トークン化の言語モデルの埋め込みが、単数名詞と複数名詞を最大限に区別する埋め込み空間軸に沿って同様の分布を持つことを実証する探索的分析を示します。
私たちの結果は、形態学的に調整されたトークン化が実行可能なトークン化アプローチであり、既存のモデルがすでにいくつかの形態学的パターンを新しいアイテムに一般化していることを示唆しています。
ただし、私たちの結果は、形態学的トークン化がパフォーマンスのために厳密に必要ではないことを示しています。

要約(オリジナル)

The relationship between language model tokenization and performance is an open area of research. Here, we investigate how different tokenization schemes impact number agreement in Spanish plurals. We find that morphologically-aligned tokenization performs similarly to other tokenization schemes, even when induced artificially for words that would not be tokenized that way during training. We then present exploratory analyses demonstrating that language model embeddings for different plural tokenizations have similar distributions along the embedding space axis that maximally distinguishes singular and plural nouns. Our results suggest that morphologically-aligned tokenization is a viable tokenization approach, and existing models already generalize some morphological patterns to new items. However, our results indicate that morphological tokenization is not strictly required for performance.

arxiv情報

著者 Catherine Arnett,Pamela D. Rivière,Tyler A. Chang,Sean Trott
発行日 2024-03-20 17:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク