Pretraining Language Models for Diachronic Linguistic Change Discovery

要約

大規模な言語モデル(LLM)は、科学的発見のためのツールとしての可能性を示しています。
これは、歴史的言語学や文学研究など、人道的な分野での使用に関心が高まっています。
これらのフィールドは、多くの場合、ジャンルなどの描写、またはより柔軟に期間の期間に基づいて議論を構築します。
微調整またはモデルの編集を介して特定のドメインへの推論を制限する努力がなされていますが、唯一の真の保証はドメイン制限された前oraining(通常、データと計算の高価な提案)であると仮定します。
効率的な事前トレーニング技術は、簡単な手動検査には大きすぎますが、「典型的な」LLMアプローチには小さすぎるコーポラよりも有用なモデルを生成できることを示しています。
5つの1000万ワードのスライスの一時的にセグメント化されたデータセットを取得するために、新しい日付と貢献パイプラインを採用しています。
これらのコーパスセグメントで2つの対応する5つのモデルバッテリー、効率的なPretrainingおよびLlama3-8Bパラメーターを効率的に微調整します。
先立ったモデルは、微調ューされたベースラインよりも訓練が速く、コーパスの歴史的分裂をよりよく尊重することがわかります。
歴史的な包括性よりも速度と精度を強調することにより、ターゲット分野での仮説発見とテストに対する多くの新しいアプローチが可能になります。
時刻言語学をテストベッドとして取り上げると、私たちの方法は、規模の変化、非屈発性(文法的および形態学的)変化、単語感覚の紹介/陳腐化など、多様な現象の検出を可能にすることを示しています。
最小限の適応のみで他のターゲットフィールドへのアプローチを拡張できるようにする、すぐに使用できるパイプラインを提供します。

要約(オリジナル)

Large language models (LLMs) have shown potential as tools for scientific discovery. This has engendered growing interest in their use in humanistic disciplines, such as historical linguistics and literary studies. These fields often construct arguments on the basis of delineations like genre, or more inflexibly, time period. Although efforts have been made to restrict inference to specific domains via fine-tuning or model editing, we posit that the only true guarantee is domain-restricted pretraining — typically, a data- and compute-expensive proposition. We show that efficient pretraining techniques can produce useful models over corpora too large for easy manual inspection but too small for ‘typical’ LLM approaches. We employ a novel date-attribution pipeline in order to obtain a temporally-segmented dataset of five 10-million-word slices. We train two corresponding five-model batteries over these corpus segments, efficient pretraining and Llama3-8B parameter efficiently finetuned. We find that the pretrained models are faster to train than the finetuned baselines and that they better respect the historical divisions of our corpus. Emphasizing speed and precision over a-historical comprehensiveness enables a number of novel approaches to hypothesis discovery and testing in our target fields. Taking up diachronic linguistics as a testbed, we show that our method enables the detection of a diverse set of phenomena, including en masse lexical change, non-lexical (grammatical and morphological) change, and word sense introduction/obsolescence. We provide a ready-to-use pipeline that allows extension of our approach to other target fields with only minimal adaptation.

arxiv情報

著者 Elisabeth Fittschen,Sabrina Li,Tom Lippincott,Leshem Choshen,Craig Messner
発行日 2025-04-09 13:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク