Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another

要約

この論文では、ハンガリーの文学雑誌の段落で開発されたコーディング システムを別の雑誌に引き継ぐために BERT モデルをトレーニングする方法について説明します。
このコーディング システムの目的は、1989 年のハンガリーの政治的変革を中心とした文学翻訳の認識の傾向を追跡することです。
タスクのパフォーマンスだけでなく、アノテーションの一貫性も評価するため、さらにアンサンブルからより良い予測を得るために、10 分割交差検証を使用します。
可能な限り最良の結果と公平な比較を得るために、広範なハイパーパラメータ調整が使用されます。
ラベルの不均衡を処理するために、損失関数とそれに対して堅牢なメトリクスを使用します。
ドメインシフトの効果の評価は、対象ドメインからテストセットをサンプリングすることで行われます。
シミュレーションを通じてブートストラップされた信頼区間を推定することにより、サンプル サイズを確立します。
このようにして、モデルが 1 つのアノテーション システムをターゲット ドメインに引き継ぐことができることを示します。
比較は、マルチラベル相関の学習や信頼ペナルティによってドメイン シフトに対する耐性が向上するなどの洞察を提供するために行われ、別のドメイン上の OCR 処理されたテキストのドメイン適応により、研究対象のコーパスでのパフォーマンスとほぼ同程度にパフォーマンスが向上します。
https://codeberg.org/zsamboki/bert-annotator-ensemble でコードを参照してください。

要約(オリジナル)

This paper describes how we train BERT models to carry over a coding system developed on the paragraphs of a Hungarian literary journal to another. The aim of the coding system is to track trends in the perception of literary translation around the political transformation in 1989 in Hungary. To evaluate not only task performance but also the consistence of the annotation, moreover, to get better predictions from an ensemble, we use 10-fold crossvalidation. Extensive hyperparameter tuning is used to obtain the best possible results and fair comparisons. To handle label imbalance, we use loss functions and metrics robust to it. Evaluation of the effect of domain shift is carried out by sampling a test set from the target domain. We establish the sample size by estimating the bootstrapped confidence interval via simulations. This way, we show that our models can carry over one annotation system to the target domain. Comparisons are drawn to provide insights such as learning multilabel correlations and confidence penalty improve resistance to domain shift, and domain adaptation on OCR-ed text on another domain improves performance almost to the same extent as that on the corpus under study. See our code at https://codeberg.org/zsamboki/bert-annotator-ensemble.

arxiv情報

著者 Dalma Galambos,Pál Zsámboki
発行日 2024-03-26 16:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク