Improved Neural Protoform Reconstruction via Reflex Prediction

要約

原言語の再構築は歴史言語学の中心です。
比較法は、言語科学の歴史において最も影響力のある理論的および方法論的枠組みの 1 つであり、言語学者が規則的な音声変化の仮定に基づいて、その反射 (関連する現代の単語) から原形 (再構築された祖先の単語) を推測することを可能にします。
驚くことではないが、多くの計算言語学者がさまざまな計算モデルを通じて比較再構築を実用化しようと試みてきたが、その中で最も成功したのは教師ありエンコーダ・デコーダ・モデルであり、与えられた一連の反射神経からプロトフォームを予測する問題を系列間問題として扱うものである。
私たちは、このフレームワークは比較法の最も重要な側面の 1 つを無視していると主張します。つまり、プロトフォームが同族セット (関連する反射のセット) から推論可能である必要があるだけでなく、反射もプロトフォームから推論可能である必要があります。
別の研究分野である反射予測を活用して、再構成モデ​​ルからの候補プロトフォームを反射予測モデルによって再ランク付けするシステムを提案します。
この比較手法のより完全な実装により、中国とロマンスの 4 つのデータセットのうち 3 つで最先端のプロトフォーム再構成手法を超えることができることを示します。

要約(オリジナル)

Protolanguage reconstruction is central to historical linguistics. The comparative method, one of the most influential theoretical and methodological frameworks in the history of the language sciences, allows linguists to infer protoforms (reconstructed ancestral words) from their reflexes (related modern words) based on the assumption of regular sound change. Not surprisingly, numerous computational linguists have attempted to operationalize comparative reconstruction through various computational models, the most successful of which have been supervised encoder-decoder models, which treat the problem of predicting protoforms given sets of reflexes as a sequence-to-sequence problem. We argue that this framework ignores one of the most important aspects of the comparative method: not only should protoforms be inferable from cognate sets (sets of related reflexes) but the reflexes should also be inferable from the protoforms. Leveraging another line of research — reflex prediction — we propose a system in which candidate protoforms from a reconstruction model are reranked by a reflex prediction model. We show that this more complete implementation of the comparative method allows us to surpass state-of-the-art protoform reconstruction methods on three of four Chinese and Romance datasets.

arxiv情報

著者 Liang Lu,Jingzhi Wang,David R. Mortensen
発行日 2024-03-27 17:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク