Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus

要約

19世紀アメリカ文学の正書法変化トークンのデータセットと、人間による注釈が加えられた方言グループタグの新しいレイヤーを紹介する。このデータセットに対して、トークン(BERT)と文字(CANINE)の両方のレベルの文脈言語モデルを用いて、初期の幅広い実験を行った。その結果、意図的な正書法の変化によって生じる「方言効果」は複数の言語チャンネルを用いること、そして、これらのチャンネルは、特定の言語モデリングの仮定があれば、様々な程度まで浮上させることができることがわかった。具体的には、トークン化スキームの選択が、モデルが表面化できる正書法情報の種類に有意義な影響を与えることを示す証拠を発見した。

要約(オリジナル)

We present a dataset of 19th century American literary orthovariant tokens with a novel layer of human-annotated dialect group tags designed to serve as the basis for computational experiments exploring literarily meaningful orthographic variation. We perform an initial broad set of experiments over this dataset using both token (BERT) and character (CANINE)-level contextual language models. We find indications that the ‘dialect effect’ produced by intentional orthographic variation employs multiple linguistic channels, and that these channels are able to be surfaced to varied degrees given particular language modelling assumptions. Specifically, we find evidence showing that choice of tokenization scheme meaningfully impact the type of orthographic information a model is able to surface.

arxiv情報

著者 Craig Messner,Tom Lippincott
発行日 2024-10-03 16:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク