Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language

要約

ドメイン適応継続事前トレーニング(DAPT)は、例えば言語マスキングなどの前登録タスクで言語モデル(LM)をさらに訓練する最先端の手法です。
人気がありますが、ドメイン関連データの重要なコーパスが必要です。これは、ドイツ語のプロセス業界など、英語以外の言語で特定のドメインを取得することが困難です。
このホワイトペーパーでは、コンテキスト内学習(ICL)およびk-nearest Neighbors(KNN)を活用するICLの高級前削除またはICL-PAPTと呼ばれる効率的なアプローチを紹介し、ドメイン関連のテキストとドメイン内のテキストでターゲットデータを増強し、GPU時間を大幅に短縮しながら、モデルのパフォーマンスを維持します。
我々の結果は、このアプローチが平均IRメトリックの3.5(MAP、MRR、NDCGなど)の3.5よりも優れたパフォーマンスを発揮し、計算時間のほぼ4倍を必要とすることを示しており、計算能力が限られている産業に費用対効果の高いソリューションを提供します。
この調査結果は、このフレームワークの他の低リソース産業へのより広範な適用性を強調しており、NLPベースのソリューションを生産環境でよりアクセスしやすく実現可能にしています。

要約(オリジナル)

Domain-adaptive continual pretraining (DAPT) is a state-of-the-art technique that further trains a language model (LM) on its pretraining task, e.g., language masking. Although popular, it requires a significant corpus of domain-related data, which is difficult to obtain for specific domains in languages other than English, such as the process industry in the German language. This paper introduces an efficient approach called ICL-augmented pretraining or ICL-APT that leverages in-context learning (ICL) and k-nearest neighbors (kNN) to augment target data with domain-related and in-domain texts, significantly reducing GPU time while maintaining strong model performance. Our results show that this approach performs better than traditional DAPT by 3.5 of the average IR metrics (e.g., mAP, MRR, and nDCG) and requires almost 4 times less computing time, providing a cost-effective solution for industries with limited computational capacity. The findings highlight the broader applicability of this framework to other low-resource industries, making NLP-based solutions more accessible and feasible in production environments.

arxiv情報

著者 Anastasia Zhukova,Christian E. Matt,Terry Ruas,Bela Gipp
発行日 2025-04-28 14:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク