Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule

要約

神経文法誤り訂正 (GEC) の進歩は、注釈付きトレーニング データの欠如によって妨げられています。
手動で注釈を付けられた高品質のデータは十分な量が入手できないため、最近の研究は合成データを生成し、そのデータで事前トレーニングし、実際のデータセットで微調整することに依存しています。
パフォーマンスの向上は、アンサンブルによって、またはバックボーンとして XXL-T5 などの巨大な事前トレーニング済みモデルを使用することによって達成されています。
この研究では、利用可能なデータをより効率的に使用する方法という直交する方向を探求します。
まず、一連の訂正を予測するなど、元の文と訂正された文の間の整合性を利用する補助タスクを提案します。
各タスクをシーケンス間の問題として定式化し、マルチタスク トレーニングを実行します。
次に、トレーニングに使用されるデータセットの順序、さらにはデータセット内の個々のインスタンスが最終的なパフォーマンスに重要な影響を与える可能性があることがわかり、最適なトレーニング スケジュールを見つけることにしました。
これら 2 つのアイデアを組み合わせることで大幅な改善がもたらされ、はるかに小さなモデルで最先端の技術を向上させる結果が得られます。
特に、BART ベースのモデル (400M パラメータ) を使用した T5-XXL (11B パラメータ) に基づく最高のモデルを上回っています。

要約(オリジナル)

Progress in neural grammatical error correction (GEC) is hindered by the lack of annotated training data. Sufficient amounts of high-quality manually annotated data are not available, so recent research has relied on generating synthetic data, pretraining on it, and then fine-tuning on real datasets; performance gains have been achieved either by ensembling or by using huge pretrained models such as XXL-T5 as the backbone. In this work, we explore an orthogonal direction: how to use available data more efficiently. First, we propose auxiliary tasks that exploit the alignment between the original and corrected sentences, such as predicting a sequence of corrections. We formulate each task as a sequence-to-sequence problem and perform multi-task training. Second, we discover that the order of datasets used for training and even individual instances within a dataset may have important effects on the final performance, so we set out to find the best training schedule. Together, these two ideas lead to significant improvements, producing results that improve state of the art with much smaller models; in particular, we outperform the best models based on T5-XXL (11B parameters) with a BART-based model (400M parameters).

arxiv情報

著者 Andrey Bout,Alexander Podolskiy,Sergey Nikolenko,Irina Piontkovskaya
発行日 2023-11-20 14:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク