Boosting classification reliability of NLP transformer models in the long run

要約

Transformer ベースの機械学習モデルは、この手法の導入以来、多くの自然言語処理 (NLP) タスクにとって不可欠なツールになりました。
これらのプロジェクトの共通の目的は、テキスト データを分類することです。
分類モデルは、多くの場合、別のトピックや期間に拡張されます。
このような状況では、分類が適切な期間と、モデルを再トレーニングする価値がある時期を判断することは困難です。
このホワイト ペーパーでは、長時間実行される分類タスクの BERT モデルを微調整するためのさまざまなアプローチを比較します。
さまざまな期間のデータを使用して元の BERT モデルを微調整し、2 回目のアノテーションで分類品質がどのように向上するかを測定します。
私たちのコーパスには、2020 年 9 月から 2021 年 12 月の間に投稿された、ハンガリーでの COVID-19 ワクチン接種に関する 800 万件を超えるコメントが含まれています。私たちの結果は、最良の解決策は、利用可能なすべてのラベルのないコメントを使用してモデルを微調整することであることを示しています。
モデルが以前に遭遇したことのない単語を含むコメントだけに注目することはお勧めできません。
より効率的な解決策は、新しい期間からランダムにコメントを抽出することです。
微調整によってモデルのパフォーマンスが低下するのを防ぐことはできませんが、パフォーマンスが低下するだけです。
急速に変化する言語環境では、新しいテキストに定期的に注釈を付けずにモデルのパフォーマンスを維持することはできません。

要約(オリジナル)

Transformer-based machine learning models have become an essential tool for many natural language processing (NLP) tasks since the introduction of the method. A common objective of these projects is to classify text data. Classification models are often extended to a different topic and/or time period. In these situations, deciding how long a classification is suitable for and when it is worth re-training our model is difficult. This paper compares different approaches to fine-tune a BERT model for a long-running classification task. We use data from different periods to fine-tune our original BERT model, and we also measure how a second round of annotation could boost the classification quality. Our corpus contains over 8 million comments on COVID-19 vaccination in Hungary posted between September 2020 and December 2021. Our results show that the best solution is using all available unlabeled comments to fine-tune a model. It is not advisable to focus only on comments containing words that our model has not encountered before; a more efficient solution is randomly sample comments from the new period. Fine-tuning does not prevent the model from losing performance but merely slows it down. In a rapidly changing linguistic environment, it is not possible to maintain model performance without regularly annotating new text.

arxiv情報

著者 Zoltán Kmetty,Bence Kollányi,Krisztián Boros
発行日 2023-02-20 14:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク