Noise-Robust Fine-Tuning of Pretrained Language Models via External Guidance

要約

事前トレーニングに続いて微調整を行う 2 段階のパラダイムを採用することで、事前トレーニング済み言語モデル (PLM) は自然言語処理の分野で大幅な進歩を達成しました。
ただし、現実のシナリオでは、複雑なアノテーション プロセスによりデータ ラベルにノイズが多く含まれることが多く、そのようなノイズの多いラベルを使用して PLM を微調整する戦略を開発することが不可欠です。
この目的を達成するために、ChatGPT のような大規模言語モデル (LLM) のガイダンスを組み込んだ、ノイズの多いラベルを使用して PLM を微調整するための革新的なアプローチを導入します。
このガイダンスは、クリーンなサンプルとノイズのあるサンプルを正確に区別するのに役立ち、ノイズのあるラベルを超えた補足情報を提供するため、PLM の微調整中の学習プロセスが促進されます。
合成データセットと現実世界のノイズの多いデータセットに関する広範な実験により、最先端のベースラインを上回る当社のフレームワークの優れた利点がさらに実証されました。

要約(オリジナル)

Adopting a two-stage paradigm of pretraining followed by fine-tuning, Pretrained Language Models (PLMs) have achieved substantial advancements in the field of natural language processing. However, in real-world scenarios, data labels are often noisy due to the complex annotation process, making it essential to develop strategies for fine-tuning PLMs with such noisy labels. To this end, we introduce an innovative approach for fine-tuning PLMs using noisy labels, which incorporates the guidance of Large Language Models (LLMs) like ChatGPT. This guidance assists in accurately distinguishing between clean and noisy samples and provides supplementary information beyond the noisy labels, thereby boosting the learning process during fine-tuning PLMs. Extensive experiments on synthetic and real-world noisy datasets further demonstrate the superior advantages of our framework over the state-of-the-art baselines.

arxiv情報

著者 Song Wang,Zhen Tan,Ruocheng Guo,Jundong Li
発行日 2023-11-02 09:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク