Can postgraduate translation students identify machine-generated text?

要約

多言語コンテンツを作成し、機械と従来の翻訳方法の両方をバイパスするためのツールとして生成人工知能の使用が増えていることを考えると、この研究では、人間執筆テキスト(HT)からの機械で生成された出力を識別する言語学的に訓練された個人の能力を探ります。
合成テキスト(ST)で一般的に見られるテキスト異常に関する短いトレーニングセッションの後、23人の大学院翻訳学生がイタリアの散文の抜粋を分析し、尤度スコアを割り当てて、人間が執筆しているかAIが生成されていると信じているかを示しました(ChatGPT-4O)。
結果は、平均して、学生がHTとSTを区別するのに苦労し、2人の参加者のみが顕著な精度を達成することを示しています。
綿密な分析では、学生はHTとSTの両方で同じテキストの異常を頻繁に特定したことが明らかになりましたが、低いバーストや自己矛盾などの機能はSTとより頻繁に関連していました。
これらの調査結果は、準備訓練の改善の必要性を示唆しています。
さらに、この研究は、合成テキストを編集して人間のように聞こえるようにする必要性について疑問を提起し、さらなる研究がすでに洗練を必要としないほど自然な音であるかどうかを判断するためのさらなる研究を推奨します。

要約(オリジナル)

Given the growing use of generative artificial intelligence as a tool for creating multilingual content and bypassing both machine and traditional translation methods, this study explores the ability of linguistically trained individuals to discern machine-generated output from human-written text (HT). After brief training sessions on the textual anomalies typically found in synthetic text (ST), twenty-three postgraduate translation students analysed excerpts of Italian prose and assigned likelihood scores to indicate whether they believed they were human-written or AI-generated (ChatGPT-4o). The results show that, on average, the students struggled to distinguish between HT and ST, with only two participants achieving notable accuracy. Closer analysis revealed that the students often identified the same textual anomalies in both HT and ST, although features such as low burstiness and self-contradiction were more frequently associated with ST. These findings suggest the need for improvements in the preparatory training. Moreover, the study raises questions about the necessity of editing synthetic text to make it sound more human-like and recommends further research to determine whether AI-generated text is already sufficiently natural-sounding not to require further refinement.

arxiv情報

著者 Michael Farrell
発行日 2025-04-18 13:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク