SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation

要約

サブワード セグメンテーションは、ニューラル機械翻訳 (NMT) にとって重要な前処理ステップです。
既存の研究では、ニューラル サブワード セグメンタがバイト ペア エンコーディング (BPE) よりも優れていることが示されていますが、並列コーパス、トレーニングに数日、デコードに数時間を必要とするため、非効率的です。
この論文では、自己監視型ニューラル サブワード セグメンテーション手法である SelfSeg を紹介します。これはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみが必要です。
SelfSeg は、部分的にマスクされた文字シーケンスの形式で単語​​を入力として受け取り、単語生成確率を最適化し、動的プログラミング アルゴリズムを使用して計算される最大事後確率でセグメンテーションを生成します。
SelfSeg のトレーニング時間は単語頻度に依存するため、トレーニング段階を加速するためにいくつかの単語頻度正規化戦略を検討します。
さらに、セグメンターが 1 つの単語に対してさまざまなセグメンテーションを生成できるようにする正則化メカニズムを提案します。
私たちのアプローチの有効性を示すために、低、中、高リソースのシナリオで MT 実験を実施し、さまざまなセグメンテーション方法を使用した場合のパフォーマンスを比較します。
実験結果は、低リソースの ALT データセット上で、私たちの方法が BPE および SentencePiece と比較して 1.2 以上の BLEU スコア向上を達成し、動的プログラミング エンコーディング (DPE) および最適化トランスポートによる語彙学習 (VOLT) と比較して 1.1 スコア向上を達成することを示しています。
平均。
正則化方法では、BPE と比較して BLEU スコアが約 4.3 向上し、BPE の正規化バージョンである BPE ドロップアウトと比較して BLEU スコアが 1.2 向上します。
また、IWSLT15 Vi->En、WMT16 Ro->En、および WMT15 Fi->En データセットでの大幅な改善と、WMT14 De->En および WMT14 Fr->En データセットでの競合結果も観察されました。

要約(オリジナル)

Sub-word segmentation is an essential pre-processing step for Neural Machine Translation (NMT). Existing work has shown that neural sub-word segmenters are better than Byte-Pair Encoding (BPE), however, they are inefficient as they require parallel corpora, days to train and hours to decode. This paper introduces SelfSeg, a self-supervised neural sub-word segmentation method that is much faster to train/decode and requires only monolingual dictionaries instead of parallel corpora. SelfSeg takes as input a word in the form of a partially masked character sequence, optimizes the word generation probability and generates the segmentation with the maximum posterior probability, which is calculated using a dynamic programming algorithm. The training time of SelfSeg depends on word frequencies, and we explore several word frequency normalization strategies to accelerate the training phase. Additionally, we propose a regularization mechanism that allows the segmenter to generate various segmentations for one word. To show the effectiveness of our approach, we conduct MT experiments in low-, middle- and high-resource scenarios, where we compare the performance of using different segmentation methods. The experimental results demonstrate that on the low-resource ALT dataset, our method achieves more than 1.2 BLEU score improvement compared with BPE and SentencePiece, and a 1.1 score improvement over Dynamic Programming Encoding (DPE) and Vocabulary Learning via Optimal Transport (VOLT) on average. The regularization method achieves approximately a 4.3 BLEU score improvement over BPE and a 1.2 BLEU score improvement over BPE-dropout, the regularized version of BPE. We also observed significant improvements on IWSLT15 Vi->En, WMT16 Ro->En and WMT15 Fi->En datasets, and competitive results on the WMT14 De->En and WMT14 Fr->En datasets.

arxiv情報

著者 Haiyue Song,Raj Dabre,Chenhui Chu,Sadao Kurohashi,Eiichiro Sumita
発行日 2023-07-31 04:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク