Generative AI Text Classification using Ensemble LLM Approaches

要約

大規模言語モデル (LLM) は、コンテンツ作成、レポート生成など、さまざまな人工知能 (AI) および自然言語処理タスクにわたって優れたパフォーマンスを示しています。ただし、これらのモデルを規制されていない悪意のある適用は、生成などの望ましくない結果を引き起こす可能性があります。
その結果、LLM を責任を持って使用するには、AI によって生成された言語を正確に検出することが重要になる可能性があります。
この研究では、1) 特定のテキスト本体が AI によって生成されたものか人間によって書かれたものか、2) テキスト本体の生成における特定の言語モデルの帰属を調査します。
英語とスペイン語の両方のテキストが考慮されます。
この研究で使用されるデータセットは、Automated Text Identification (AuTexTification) 共有タスクの一部として提供されます。
上記の研究目的のそれぞれについて、私たちは、その後の従来型機械学習 (TML) 分類器への特徴として使用されるさまざまな事前トレーニング済み LLM から確率を生成するアンサンブル ニューラル モデルを提案します。
AI と人間が生成したテキストを区別するという最初のタスクでは、私たちのモデルは英語とスペイン語のテキストでそれぞれ 5 位と 13 位 (マクロ $F1$ スコアは 0.733 と 0.649) にランクされました。
モデルの帰属に関する 2 番目のタスクでは、私たちのモデルは、英語とスペイン語のテキストでそれぞれ 0.625 と 0.653 のマクロ $F1$ スコアを獲得し、1 位にランクされました。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive performance across a variety of Artificial Intelligence (AI) and natural language processing tasks, such as content creation, report generation, etc. However, unregulated malign application of these models can create undesirable consequences such as generation of fake news, plagiarism, etc. As a result, accurate detection of AI-generated language can be crucial in responsible usage of LLMs. In this work, we explore 1) whether a certain body of text is AI generated or written by human, and 2) attribution of a specific language model in generating a body of text. Texts in both English and Spanish are considered. The datasets used in this study are provided as part of the Automated Text Identification (AuTexTification) shared task. For each of the research objectives stated above, we propose an ensemble neural model that generates probabilities from different pre-trained LLMs which are used as features to a Traditional Machine Learning (TML) classifier following it. For the first task of distinguishing between AI and human generated text, our model ranked in fifth and thirteenth place (with macro $F1$ scores of 0.733 and 0.649) for English and Spanish texts, respectively. For the second task on model attribution, our model ranked in first place with macro $F1$ scores of 0.625 and 0.653 for English and Spanish texts, respectively.

arxiv情報

著者 Harika Abburi,Michael Suesserman,Nirmala Pudota,Balaji Veeramani,Edward Bowen,Sanmitra Bhattacharya
発行日 2023-09-14 14:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク