GEC-DePenD: Non-Autoregressive Grammatical Error Correction with Decoupled Permutation and Decoding

要約

文法的誤り訂正 (GEC) は重要な NLP タスクであり、現在は通常、自己回帰シーケンスツーシーケンス モデルを使用して解決されます。
ただし、このクラスのアプローチはトークンを 1 つずつ生成するため本質的に時間がかかるため、非自己回帰的な代替手段が必要です。
この研究では、GEC に対する新しい非自己回帰アプローチを提案します。これは、アーキテクチャを、入力トークンの最良の置換を見つけるためにビーム検索で使用できる自己注意重み行列を出力する置換ネットワークに分離します (補助 {ins を使用)
} トークン)と、特定のトークンを埋めるステップ展開されたノイズ除去オートエンコーダーに基づくデコーダー ネットワーク。
これにより、自己回帰構築を回避して、置換ネットワークの 1 回の順方向パスだけでトークンの置換を見つけることができます。
結果として得られるネットワークが、GEC のこれまでに知られている非自己回帰手法よりも改善され、言語固有の合成データ生成手法を使用しない自己回帰手法のレベルに達することを示します。
私たちの結果は、ConLL-2014 および Write&Implement+LOCNESS データセットに関する包括的な実験検証と、アーキテクチャおよびアルゴリズムの選択をサポートする広範なアブレーション研究によって裏付けられています。

要約(オリジナル)

Grammatical error correction (GEC) is an important NLP task that is currently usually solved with autoregressive sequence-to-sequence models. However, approaches of this class are inherently slow due to one-by-one token generation, so non-autoregressive alternatives are needed. In this work, we propose a novel non-autoregressive approach to GEC that decouples the architecture into a permutation network that outputs a self-attention weight matrix that can be used in beam search to find the best permutation of input tokens (with auxiliary {ins} tokens) and a decoder network based on a step-unrolled denoising autoencoder that fills in specific tokens. This allows us to find the token permutation after only one forward pass of the permutation network, avoiding autoregressive constructions. We show that the resulting network improves over previously known non-autoregressive methods for GEC and reaches the level of autoregressive methods that do not use language-specific synthetic data generation methods. Our results are supported by a comprehensive experimental validation on the ConLL-2014 and Write&Improve+LOCNESS datasets and an extensive ablation study that supports our architectural and algorithmic choices.

arxiv情報

著者 Konstantin Yakovlev,Alexander Podolskiy,Andrey Bout,Sergey Nikolenko,Irina Piontkovskaya
発行日 2023-11-14 14:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク