Controlled Randomness Improves the Performance of Transformer Models

要約

自然言語モデルの事前トレーニング ステップ中の主な目的は、事前トレーニング データセットの一般的な表現を学習することであり、通常、自然言語の複雑さと多様性を捉えるために大量のテキスト データが必要になります。
これとは対照的に、ほとんどの場合、特にデータが不足しているドメインでは、特定の下流タスクを解決するために利用できるデータのサイズは、前述の事前トレーニング データセットに比べて小さく見えます。
私たちは、制御されたランダム性、つまりノイズをトレーニング プロセスに導入して、言語モデルの微調整を改善し、これらのモデルのパラメーターに加えてターゲットを絞ったノイズのパフォーマンスを調査します。
このようなノイズを追加すると、共同固有表現認識、関係抽出、およびテキスト要約という 2 つの下流タスクのパフォーマンスが向上することがわかりました。

要約(オリジナル)

During the pre-training step of natural language models, the main objective is to learn a general representation of the pre-training dataset, usually requiring large amounts of textual data to capture the complexity and diversity of natural language. Contrasting this, in most cases, the size of the data available to solve the specific downstream task is often dwarfed by the aforementioned pre-training dataset, especially in domains where data is scarce. We introduce controlled randomness, i.e. noise, into the training process to improve fine-tuning language models and explore the performance of targeted noise in addition to the parameters of these models. We find that adding such noise can improve the performance in our two downstream tasks of joint named entity recognition and relation extraction and text summarization.

arxiv情報

著者 Tobias Deußer,Cong Zhao,Wolfgang Krämer,David Leonhard,Christian Bauckhage,Rafet Sifa
発行日 2023-10-20 14:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク