MAiDE-up: Multilingual Deception Detection of GPT-generated Hotel Reviews

要約

特にパフォーマンスの向上と LLM の普及を考慮すると、虚偽のレビューがますます一般的になってきています。
これまでの研究では、人間による真実のレビューと欺瞞的なレビューを区別するモデルの開発に取り組んできましたが、本物のレビューと AI によって作成された偽のレビューとの区別についてはほとんど知られていません。
さらに、これまでの研究のほとんどは主に英語に焦点を当てており、他の言語に特化した研究はほとんどありません。
このペーパーでは、10,000 件の実際のホテル レビューと AI によって生成された 10,000 件の偽のホテル レビューで構成され、10 か国語にわたってバランスがとれた MAiDE-up データセットを編集し、一般公開します。
このデータセットを使用して、広範な言語分析を実行して、(1) AI の偽のホテル レビューを実際のホテルのレビューと比較し、(2) 欺瞞検出モデルのパフォーマンスに影響を与える要因を特定します。
ホテルのレビューにおける欺瞞検出のためのいくつかのモデルの有効性を、感情、場所、言語という 3 つの主要な側面にわたって調査します。
これらの要素が、AI によって生成された偽レビューをどの程度検出できるかに影響を与えることがわかりました。

要約(オリジナル)

Deceptive reviews are becoming increasingly common, especially given the increase in performance and the prevalence of LLMs. While work to date has addressed the development of models to differentiate between truthful and deceptive human reviews, much less is known about the distinction between real reviews and AI-authored fake reviews. Moreover, most of the research so far has focused primarily on English, with very little work dedicated to other languages. In this paper, we compile and make publicly available the MAiDE-up dataset, consisting of 10,000 real and 10,000 AI-generated fake hotel reviews, balanced across ten languages. Using this dataset, we conduct extensive linguistic analyses to (1) compare the AI fake hotel reviews to real hotel reviews, and (2) identify the factors that influence the deception detection model performance. We explore the effectiveness of several models for deception detection in hotel reviews across three main dimensions: sentiment, location, and language. We find that these dimensions influence how well we can detect AI-generated fake reviews.

arxiv情報

著者 Oana Ignat,Xiaomeng Xu,Rada Mihalcea
発行日 2024-04-19 15:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク