Fast Training of NMT Model with Data Sorting

要約

Transformer モデルは、ニューラル機械翻訳などの自然言語処理タスクに革命をもたらし、Transformer アーキテクチャを研究するために多くの努力が払われ、効率と精度が向上しました。
改善の可能性がある領域の 1 つは、後で破棄するためにのみ Transformer が計算する空のトークンの計算に対処することです。これは、不必要な計算負荷につながります。
これに取り組むために、バッチ化する前に翻訳文のペアを長さに基づいて並べ替え、計算能力の無駄を最小限に抑えるアルゴリズムを提案します。
ソートの量によっては、独立かつ同一に分散された (i.i.d) データの前提に違反する可能性があるため、データを部分的にソートします。
実験では、提案された方法を英語-韓国語および英語-ルガンダ語の言語ペアに機械翻訳に適用し、パフォーマンスを維持しながら計算時間が短縮されることを示しました。
私たちのメソッドはアーキテクチャに依存しないため、柔軟なデータ長を使用してあらゆるトレーニング プロセスに簡単に統合できます。

要約(オリジナル)

The Transformer model has revolutionized Natural Language Processing tasks such as Neural Machine Translation, and many efforts have been made to study the Transformer architecture, which increased its efficiency and accuracy. One potential area for improvement is to address the computation of empty tokens that the Transformer computes only to discard them later, leading to an unnecessary computational burden. To tackle this, we propose an algorithm that sorts translation sentence pairs based on their length before batching, minimizing the waste of computing power. Since the amount of sorting could violate the independent and identically distributed (i.i.d) data assumption, we sort the data partially. In experiments, we apply the proposed method to English-Korean and English-Luganda language pairs for machine translation and show that there are gains in computational time while maintaining the performance. Our method is independent of architectures, so that it can be easily integrated into any training process with flexible data lengths.

arxiv情報

著者 Daniela N. Rim,Kimera Richard,Heeyoul Choi
発行日 2023-08-16 05:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク