要約
ウクライナ語の大規模な言語モデルを構築するには、自然言語で表現された大量の新しいアルゴリズム タスクを使用してコーパスを拡張する必要があります。
英語で表現されたタスクパフォーマンスの例は豊富にあるため、高品質の翻訳システムを使用すると、コミュニティはより迅速にデータセットをキュレーションできるようになります。
この目標を支援するために、ウクライナ語と英語の文の 300 万ペアのノイズの多い並列データセットを使用した大規模な事前トレーニング済み言語モデルの教師あり微調整を使用した翻訳システムを構築するレシピを紹介します。その後、k- によって選択された 17,000 個の例を使用したトレーニングの第 2 段階が続きます。
より高品質の別のデータセットでパープレキシティ フィルターを折り畳む。
Dragoman という名前のデコーダ専用モデルは、FLORES devtest セット上の以前の最先端のエンコーダ/デコーダ モデルのパフォーマンスを上回っています。
要約(オリジナル)
To build large language models for Ukrainian we need to expand our corpora with large amounts of new algorithmic tasks expressed in natural language. Examples of task performance expressed in English are abundant, so with a high-quality translation system our community will be enabled to curate datasets faster. To aid this goal, we introduce a recipe to build a translation system using supervised finetuning of a large pretrained language model with a noisy parallel dataset of 3M pairs of Ukrainian and English sentences followed by a second phase of training using 17K examples selected by k-fold perplexity filtering on another dataset of higher quality. Our decoder-only model named Dragoman beats performance of previous state of the art encoder-decoder models on the FLORES devtest set.
arxiv情報
著者 | Yurii Paniv,Dmytro Chaplynskyi,Nikita Trynus,Volodymyr Kyrylov |
発行日 | 2024-04-23 16:34:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google