Cross-cultural Inspiration Detection and Analysis in Real and LLM-generated Social Media Data


私たちは、実際の投稿と AI によって生成された異文化のインスピレーションを与える投稿を特定し、分析することを目指しています。
この目的を達成するために、私たちは InspAIred データセットを編集し、公開しています。このデータセットは、インドと英国に均等に分散された 2,000 件の実際の感動的な投稿、2,000 件の実際の非感動的な投稿、生成された 2,000 件の感動的な投稿で構成されています。
実際の投稿は Reddit から取得されますが、生成された投稿は GPT-4 モデルを使用して作成されます。
このデータセットを使用して、広範なコンピューターによる言語分析を実施して、(1) 文化間で感動的なコンテンツを比較し、(2) AI によって生成された感動的な投稿と実際の感動的な投稿を比較し、(3) 検出モデルが文化間で感動的なコンテンツを正確に区別できるかどうかを判断します。


Inspiration is linked to various positive outcomes, such as increased creativity, productivity, and happiness. Although inspiration has great potential, there has been limited effort toward identifying content that is inspiring, as opposed to just engaging or positive. Additionally, most research has concentrated on Western data, with little attention paid to other cultures. This work is the first to study cross-cultural inspiration through machine learning methods. We aim to identify and analyze real and AI-generated cross-cultural inspiring posts. To this end, we compile and make publicly available the InspAIred dataset, which consists of 2,000 real inspiring posts, 2,000 real non-inspiring posts, and 2,000 generated inspiring posts evenly distributed across India and the UK. The real posts are sourced from Reddit, while the generated posts are created using the GPT-4 model. Using this dataset, we conduct extensive computational linguistic analyses to (1) compare inspiring content across cultures, (2) compare AI-generated inspiring posts to real inspiring posts, and (3) determine if detection models can accurately distinguish between inspiring content across cultures and data sources.


著者 Oana Ignat,Gayathri Ganesh Lakshmy,Rada Mihalcea
発行日 2024-04-19 15:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク