要約
近年、大規模言語モデル(Large Language Models: LLM)は、タスクを完了するための貴重なアシスタントとして、私たちの日常生活に溶け込んでいる。しかし、LLMの乱用は避けられず、特に様々な目的でテキストコンテンツを生成するためにLLMを使用する場合、LLMによって生成されたテキストと人間が書いたテキストを区別することが難しくなる。本研究では、AIによって生成されたテキストを検出する目的で、6.800サンプルのベトナム語エッセイから構成されるデータセットViDetectを発表する。ViT5、BartPho、PhoBERT、mDeberta V3、mBERTなど、最先端の手法を用いた評価を行った。これらの結果は、AIによって生成されたテキストの検出に関する研究の増加に貢献するだけでなく、ベトナム語のコンテキストにおけるさまざまな手法の適応性と有効性を示すものでもある。この研究は、AIが生成したテキスト検出における将来の進歩の基礎を築き、自然言語処理分野の研究者に貴重な洞察を提供するものである。
要約(オリジナル)
In recent years, Large Language Models (LLMs) have become integrated into our daily lives, serving as invaluable assistants in completing tasks. Widely embraced by users, the abuse of LLMs is inevitable, particularly in using them to generate text content for various purposes, leading to difficulties in distinguishing between text generated by LLMs and that written by humans. In this study, we present a dataset named ViDetect, comprising 6.800 samples of Vietnamese essay, with 3.400 samples authored by humans and the remainder generated by LLMs, serving the purpose of detecting text generated by AI. We conducted evaluations using state-of-the-art methods, including ViT5, BartPho, PhoBERT, mDeberta V3, and mBERT. These results contribute not only to the growing body of research on detecting text generated by AI but also demonstrate the adaptability and effectiveness of different methods in the Vietnamese language context. This research lays the foundation for future advancements in AI-generated text detection and provides valuable insights for researchers in the field of natural language processing.
arxiv情報
著者 | Quang-Dan Tran,Van-Quan Nguyen,Quang-Huy Pham,K. B. Thang Nguyen,Trong-Hop Do |
発行日 | 2024-05-06 07:12:22+00:00 |
arxivサイト | arxiv_id(pdf) |