Transformed Protoform Reconstruction

要約

プロトフォームの再構築は、一連の娘言語の祖先言語でどのような形態素や単語が出現したかを推測するタスクです。
メローニら。
(2021) アテンション モデルを備えた RNN ベースのエンコーダ/デコーダを使用したラテン語プロトフォーム再構成に関する最先端の技術を達成しました。
私たちはそのモデルを最先端の seq2seq モデルである Transformer で更新します。
私たちのモデルは、5 つの言語にわたる 8,000 の同族のロマンス データと、39 種類にわたる 800 以上の同族の中国語データセット (Hou 2004) という 2 つの異なるデータセットのさまざまなメトリクスで、彼らのモデルよりも優れています。
また、モデルに含まれる潜在的な系統発生シグナルについてもモデルを調査します。
私たちのコードは https://github.com/cmu-llab/acl-2023 で公開されています。

要約(オリジナル)

Protoform reconstruction is the task of inferring what morphemes or words appeared like in the ancestral languages of a set of daughter languages. Meloni et al. (2021) achieved the state-of-the-art on Latin protoform reconstruction with an RNN-based encoder-decoder with attention model. We update their model with the state-of-the-art seq2seq model: the Transformer. Our model outperforms their model on a suite of different metrics on two different datasets: their Romance data of 8,000 cognates spanning 5 languages and a Chinese dataset (Hou 2004) of 800+ cognates spanning 39 varieties. We also probe our model for potential phylogenetic signal contained in the model. Our code is publicly available at https://github.com/cmu-llab/acl-2023.

arxiv情報

著者 Young Min Kim,Kalvin Chang,Chenxuan Cui,David Mortensen
発行日 2023-07-04 19:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク