WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised Span Prediction

要約

既存の単語アライメント方法のほとんどは、手動アライメント データセットまたはパラレル コーパスに依存しているため、その有用性が制限されています。
ここでは、手動データへの依存を軽減するために、正確で完全に整合した並列文の要件を緩和することで、監視のソースを拡大します。
具体的には、ノイズが多く、部分的に揃った、平行ではない段落を作成します。
次に、このような大規模な弱教師データセットを、スパン予測による単語アライメントの事前トレーニングに使用します。
さまざまな設定を使用した広範な実験により、WSPAlig と名付けられた私たちのアプローチが、手動データを使用せずにワード アライナーを事前トレーニングする効果的かつスケーラブルな方法であることが実証されました。
WSPAlign は、標準ベンチマークで微調整すると、最もよく監視されたベースラインを F1 で 3.3 ~ 6.1 ポイント、AER で 1.5 ~ 6.1 ポイント改善することで、新たな最先端技術を確立しました。
さらに、WSPAlign は、少数ショット、ゼロショット、およびクロスリンガル テストにおいても、対応するベースラインと比較して競争力のあるパフォーマンスを達成します。これは、WSPAlign が既存の方法よりも低リソース言語に対して潜在的により実用的であることを示しています。

要約(オリジナル)

Most existing word alignment methods rely on manual alignment datasets or parallel corpora, which limits their usefulness. Here, to mitigate the dependence on manual data, we broaden the source of supervision by relaxing the requirement for correct, fully-aligned, and parallel sentences. Specifically, we make noisy, partially aligned, and non-parallel paragraphs. We then use such a large-scale weakly-supervised dataset for word alignment pre-training via span prediction. Extensive experiments with various settings empirically demonstrate that our approach, which is named WSPAlign, is an effective and scalable way to pre-train word aligners without manual data. When fine-tuned on standard benchmarks, WSPAlign has set a new state-of-the-art by improving upon the best-supervised baseline by 3.3~6.1 points in F1 and 1.5~6.1 points in AER. Furthermore, WSPAlign also achieves competitive performance compared with the corresponding baselines in few-shot, zero-shot and cross-lingual tests, which demonstrates that WSPAlign is potentially more practical for low-resource languages than existing methods.

arxiv情報

著者 Qiyu Wu,Masaaki Nagata,Yoshimasa Tsuruoka
発行日 2023-06-09 03:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク