Large corpora and large language models: a replicable method for automating grammatical annotation

要約

多くの言語研究は、テキストコーパスから抽出された特徴の注釈付きデータセットに依存していますが、これらのコーパスの急速な定量的成長は、言語学者が手動で大規模なデータサンプルを注釈することを実用的な困難にしています。
この論文では、迅速なエンジニアリング、トレーニング、および評価を通じて、文法的注釈において言語学者を支援するための大規模な言語モデルを活用する複製可能な監視可能な方法を提示します。
英語の評価動詞構造の正式な変動のケーススタディに適用された方法論的なパイプラインを紹介します。
全体として、少量のトレーニングデータを使用して、保有されたテストサンプルで90%以上のモデル精度に達し、将来の非常に大量の建設トークンの注釈の方法を検証します。
いくつかの重要な警告にかかわらず、将来の言語研究のツールとしてのAIカピロットの価値を強調して、文法的構造と文法的な変動と変化のより広い範囲のケーススタディに対する結果の一般化可能性について説明します。

要約(オリジナル)

Much linguistic research relies on annotated datasets of features extracted from text corpora, but the rapid quantitative growth of these corpora has created practical difficulties for linguists to manually annotate large data samples. In this paper, we present a replicable, supervised method that leverages large language models for assisting the linguist in grammatical annotation through prompt engineering, training, and evaluation. We introduce a methodological pipeline applied to the case study of formal variation in the English evaluative verb construction ‘consider X (as) (to be) Y’, based on the large language model Claude 3.5 Sonnet and corpus data from Davies’ NOW and EnTenTen21 (SketchEngine). Overall, we reach a model accuracy of over 90% on our held-out test samples with only a small amount of training data, validating the method for the annotation of very large quantities of tokens of the construction in the future. We discuss the generalisability of our results for a wider range of case studies of grammatical constructions and grammatical variation and change, underlining the value of AI copilots as tools for future linguistic research, notwithstanding some important caveats.

arxiv情報

著者 Cameron Morin,Matti Marttinen Larsson
発行日 2025-04-10 07:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク