SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish

要約

SweCTRL-Mini は、単一の消費者グレードの GPU で推論と微調整に使用できる大規模なスウェーデン語モデルです。
このモデルは、Keskar、McCann、Varshney、Xiong、Socher (2019) による CTRL アーキテクチャに基づいています。つまり、SweCTRL-Mini モデルのユーザーは、生成プロンプトに特別なトークンを挿入することで、生成されるテキストのジャンルを制御できます。
SweCTRL-Mini は、mC4 コーパスのスウェーデン語部分のサブセットとスウェーデン語の小説のセットでトレーニングされています。
この記事では、(1) 特定の語句/ソースがトレーニング データの一部であるかどうかを確認できる範囲で、使用されたトレーニング データとテキストの前処理手順の詳細な説明、および (2)
) 自動評価方法を使用した識別タスクと人間の審判を使用した生成タスクの両方に関するモデルの評価。
また、モデルの生成機能を GPT-3 の生成機能と比較します。
SweCTRL-Mini は完全にオープンされており、ダウンロードできます。

要約(オリジナル)

We present SweCTRL-Mini, a large Swedish language model that can be used for inference and fine-tuning on a single consumer-grade GPU. The model is based on the CTRL architecture by Keskar, McCann, Varshney, Xiong, and Socher (2019), which means that users of the SweCTRL-Mini model can control the genre of the generated text by inserting special tokens in the generation prompts. SweCTRL-Mini is trained on a subset of the Swedish part of the mC4 corpus and a set of Swedish novels. In this article, we provide (1) a detailed account of the utilized training data and text pre-processing steps, to the extent that it is possible to check whether a specific phrase/source was a part of the training data, and (2) an evaluation of the model on both discriminative tasks, using automatic evaluation methods, and generative tasks, using human referees. We also compare the generative capabilities of the model with those of GPT-3. SweCTRL-Mini is fully open and available for download.

arxiv情報

著者 Dmytro Kalpakchi,Johan Boye
発行日 2023-06-22 13:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク