SOTASTREAM: A Streaming Approach to Machine Translation Training

要約

多くの機械翻訳ツールキットは、生データをトレーナーが直接使用できるテンソル形式に変換するデータ準備ステップを利用します。
この準備ステップは、現代の研究開発の実践とますます相いれなくなってきています。このプロセスでは、トレーニング データの静的で変更不可能なバージョンが生成され、一般的なトレーニング時間のニーズが困難になり (例: サブワード サンプリング)、時間がかかります (大規模なデータによる前処理が必要になるため)。
数日かかります)、費用がかかります(ディスク容量など)、面倒です(実験の組み合わせの管理)。
私たちは、データの生成とそのデータの消費を分離する代替アプローチを提案します。
このアプローチでは、個別の前処理ステップはありません。
データ生成により、生のトレーニング データの順列の無限ストリームが生成され、トレーナーは消費されるときにこれをテンソル化し、バッチ化します。
さらに、このデータ ストリームは、データの正規化、拡張、フィルタリングなどのオンザフライ変更を提供する一連のユーザー定義可能な演算子によって操作できます。
このアプローチを実装するオープンソース ツールキット SOTASTREAM をリリースします (https://github.com/marian-nmt/sotastream)。
トレーニング時間の短縮、柔軟性の追加、実験管理の複雑さの軽減、ディスク容量の削減が、すべてトレーニング済みモデルの精度に影響を与えることなく行われることを示します。

要約(オリジナル)

Many machine translation toolkits make use of a data preparation step wherein raw data is transformed into a tensor format that can be used directly by the trainer. This preparation step is increasingly at odds with modern research and development practices because this process produces a static, unchangeable version of the training data, making common training-time needs difficult (e.g., subword sampling), time-consuming (preprocessing with large data can take days), expensive (e.g., disk space), and cumbersome (managing experiment combinatorics). We propose an alternative approach that separates the generation of data from the consumption of that data. In this approach, there is no separate pre-processing step; data generation produces an infinite stream of permutations of the raw training data, which the trainer tensorizes and batches as it is consumed. Additionally, this data stream can be manipulated by a set of user-definable operators that provide on-the-fly modifications, such as data normalization, augmentation or filtering. We release an open-source toolkit, SOTASTREAM, that implements this approach: https://github.com/marian-nmt/sotastream. We show that it cuts training time, adds flexibility, reduces experiment management complexity, and reduces disk space, all without affecting the accuracy of the trained models.

arxiv情報

著者 Matt Post,Thamme Gowda,Roman Grundkiewicz,Huda Khayrallah,Rohit Jain,Marcin Junczys-Dowmunt
発行日 2023-08-14 22:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク