MAMMOTH: Massively Multilingual Modular Open Translation @ Helsinki

要約

モノリシックな大規模言語モデルの時代の NLP は、サイズと処理できる情報の点で限界に近づいています。
傾向はモジュール化に向かっています。これは、特殊な機能を備えたより小さなサブネットワークとコンポーネントを設計する方向に向けて必要なステップです。
このペーパーでは、MAMMOTH ツールキットを紹介します。これは、大規模な多言語モジュラー機械翻訳システムを大規模にトレーニングするために設計されたフレームワークで、最初は OpenNMT-py から派生し、その後、計算クラスター全体で効率的なトレーニングを保証するように適応されました。
A100 および V100 NVIDIA GPU のクラスター全体での効率性を紹介し、当社の設計哲学と将来の情報の計画について説明します。
このツールキットはオンラインで公開されています。

要約(オリジナル)

NLP in the age of monolithic large language models is approaching its limits in terms of size and information that can be handled. The trend goes to modularization, a necessary step into the direction of designing smaller sub-networks and components with specialized functionality. In this paper, we present the MAMMOTH toolkit: a framework designed for training massively multilingual modular machine translation systems at scale, initially derived from OpenNMT-py and then adapted to ensure efficient training across computation clusters. We showcase its efficiency across clusters of A100 and V100 NVIDIA GPUs, and discuss our design philosophy and plans for future information. The toolkit is publicly available online.

arxiv情報

著者 Timothee Mickus,Stig-Arne Grönroos,Joseph Attieh,Michele Boggia,Ona De Gibert,Shaoxiong Ji,Niki Andreas Lopi,Alessandro Raganato,Raúl Vázquez,Jörg Tiedemann
発行日 2024-03-12 11:32:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク