SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish

要約

タイトル: SweCTRL-Mini:大規模な言語モデルを使用した制御可能なスウェーデン語テキスト生成のためのデータ透過的トランスフォーマーベース

要約:

– SweCTRL-Miniは、単一の消費者向けGPUでインファレンスとファインチューニングに使用できる大規模なスウェーデン語語彙モデルです。
– このモデルは、Keskar、McCann、Varshney、Xiong、およびSocherによるCTRLアーキテクチャに基づいています。そのため、SweCTRL-Miniモデルのユーザーは、生成プロンプトに特別なトークンを挿入することで、生成されたテキストのジャンルを制御できます。
– SweCTRL-Miniは、mC4コーパスのスウェーデン語部分とスウェーデンの小説のサブセットでトレーニングされています。
– この論文では、(1)使用されるトレーニングデータとテキストの前処理手順について詳細に説明し、特定のフレーズ/ソースがトレーニングデータの一部であったかどうかを確認できる程度まで説明し、(2)自動評価方法を使用した判別タスクと人間の審査員を使った生成タスクの両方で、モデルの評価を提供します。また、このモデルの生成能力をGPT-3と比較します。
– SweCTRL-Miniは完全にオープンで、ダウンロードできます。

要約(オリジナル)

We present SweCTRL-Mini, a large Swedish language model that can be used for inference and fine-tuning on a single consumer-grade GPU. The model is based on the CTRL architecture by Keskar, McCann, Varshney, Xiong, and Socher (2019), which means that users of the SweCTRL-Mini model can control the genre of the generated text by inserting special tokens in the generation prompts. SweCTRL-Mini is trained on a subset of the Swedish part of the mC4 corpus and a set of Swedish novels. In this article, we provide (1) a detailed account of the utilized training data and text pre-processing steps, to the extent that it is possible to check whether a specific phrase/source was a part of the training data, and (2) an evaluation of the model on both discriminative tasks, using automatic evaluation methods, and generative tasks, using human referees. We also compare the generative capabilities of the model with those of GPT-3. SweCTRL-Mini is fully open and available for download.

arxiv情報

著者 Dmytro Kalpakchi,Johan Boye
発行日 2023-04-27 07:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク