Curricular Transfer Learning for Sentence Encoded Tasks

要約

言語モデルを下流タスクで微調整することは、自然言語処理分野における多くの最先端手法の標準的なアプローチである。しかし、学習元タスクと学習先タスクの分布がずれた場合、例えば会話環境などでは、このような学習効果が減少する傾向がある。本稿では、「データハッキング」と文法分析に導かれた事前学習ステップのシーケンス(カリキュラム)を提案し、事前学習分布間の更なる段階的適応を可能にする。我々の実験では、MultiWoZタスクに対する他の既知の事前学習アプローチと比較して、本手法によりかなりの改善が得られた。

要約(オリジナル)

Fine-tuning language models in a downstream task is the standard approach for many state-of-the-art methodologies in the field of NLP. However, when the distribution between the source task and target task drifts, \textit{e.g.}, conversational environments, these gains tend to be diminished. This article proposes a sequence of pre-training steps (a curriculum) guided by ‘data hacking’ and grammar analysis that allows further gradual adaptation between pre-training distributions. In our experiments, we acquire a considerable improvement from our method compared to other known pre-training approaches for the MultiWoZ task.

arxiv情報

著者 Jader Martins Camboim de Sá,Matheus Ferraroni Sanches,Rafael Roque de Souza,Júlio Cesar dos Reis,Leandro Aparecido Villas
発行日 2023-08-03 16:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク