PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text?

要約

このペーパーでは、英語の機械生成テキスト (MGT) の検出に焦点を当て、SemEval-2024 タスク 8「マルチジェネレーター、マルチドメイン、および多言語ブラックボックスの機械生成テキストの検出」への提出物を紹介します。
具体的には、私たちのアプローチは、RoBERTa ベースからの埋め込みとダイバーシティ機能の組み合わせに依存し、リサンプリングされたトレーニング セットを使用します。
サブタスク A (単一言語トラック) のランキングでは 124 位中 12 位を獲得しました。結果は、このアプローチがまだ見たことのないモデルやドメインにわたって一般化可能であり、精度 0.91 を達成していることを示しています。

要約(オリジナル)

In this paper, we present our submission to the SemEval-2024 Task 8 ‘Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection’, focusing on the detection of machine-generated texts (MGTs) in English. Specifically, our approach relies on combining embeddings from the RoBERTa-base with diversity features and uses a resampled training set. We score 12th from 124 in the ranking for Subtask A (monolingual track), and our results show that our approach is generalizable across unseen models and domains, achieving an accuracy of 0.91.

arxiv情報

著者 Kseniia Petukhova,Roman Kazakov,Ekaterina Kochmar
発行日 2024-04-08 13:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク