要約
本稿では、IberLEF-2023の一環として開催されたAuTexTification共有タスクにUPBチームが提出したソリューションについて述べる。我々のチームは、人間の代わりに大規模な言語モデルによって生成されたテキスト文書を識別するという最初のサブタスクに参加した。主催者はこのサブタスクのために、法律文書、ソーシャルメディアへの投稿、ハウツー記事など、複数のドメインをカバーする英語とスペイン語のテキストからなるバイリンガルデータセットを提供した。我々は、より良い結果を得るために、主にTransformersに基づく深層学習モデルや、マルチタスク学習や仮想敵対的訓練などの訓練テクニックを用いて実験を行った。私たちは3つの実行を提出し、そのうちの2つはアンサンブルモデルで構成されていました。我々の最も優れたモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
要約(オリジナル)
This paper describes the solutions submitted by the UPB team to the AuTexTification shared task, featured as part of IberLEF-2023. Our team participated in the first subtask, identifying text documents produced by large language models instead of humans. The organizers provided a bilingual dataset for this subtask, comprising English and Spanish texts covering multiple domains, such as legal texts, social media posts, and how-to articles. We experimented mostly with deep learning models based on Transformers, as well as training techniques such as multi-task learning and virtual adversarial training to obtain better results. We submitted three runs, two of which consisted of ensemble models. Our best-performing model achieved macro F1-scores of 66.63% on the English dataset and 67.10% on the Spanish dataset.
arxiv情報
著者 | Andrei-Alexandru Preda,Dumitru-Clementin Cercel,Traian Rebedea,Costin-Gabriel Chiru |
発行日 | 2023-08-02 20:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |