Overview of AuTexTification at IberLEF 2023: Detection and Attribution of Machine-Generated Text in Multiple Domains

要約

このペーパーでは、SEPLN 2023 カンファレンスの枠組み内で、イベリア言語評価フォーラムの IberLEF 2023 ワークショップの一環としての AuTexTification 共有タスクの概要を示します。
AuTexTification は 2 つのサブタスクで構成されます。サブタスク 1 では、参加者はテキストが人間によって作成されたものか、それとも大規模な言語モデルによって生成されたものかを判断する必要がありました。
サブタスク 2 では、参加者は機械生成されたテキストを 6 つの異なるテキスト生成モデルのいずれかに帰属させる必要がありました。
AuTexTification 2023 データセットには、2 つの言語 (英語とスペイン語) と 5 つのドメイン (ツイート、レビュー、ニュース、法律、ハウツー記事) にわたる 160,000 を超えるテキストが含まれています。
合計 114 チームが参加に登録し、そのうち 36 チームが 175 ランを送信し、そのうち 20 チームが作業ノートを送信しました。
この概要では、AuTexTification データセットとタスク、提出された参加システム、および結果を紹介します。

要約(オリジナル)

This paper presents the overview of the AuTexTification shared task as part of the IberLEF 2023 Workshop in Iberian Languages Evaluation Forum, within the framework of the SEPLN 2023 conference. AuTexTification consists of two subtasks: for Subtask 1, participants had to determine whether a text is human-authored or has been generated by a large language model. For Subtask 2, participants had to attribute a machine-generated text to one of six different text generation models. Our AuTexTification 2023 dataset contains more than 160.000 texts across two languages (English and Spanish) and five domains (tweets, reviews, news, legal, and how-to articles). A total of 114 teams signed up to participate, of which 36 sent 175 runs, and 20 of them sent their working notes. In this overview, we present the AuTexTification dataset and task, the submitted participating systems, and the results.

arxiv情報

著者 Areg Mikael Sarvazyan,José Ángel González,Marc Franco-Salvador,Francisco Rangel,Berta Chulvi,Paolo Rosso
発行日 2023-09-20 13:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク