InstaSynth: Opportunities and Challenges in Generating Synthetic Instagram Data with ChatGPT for Sponsored Content Detection

要約

大規模言語モデル (LLM) は、特にソーシャル メディア上で、非倫理的または違法な目的に使用される可能性のあるテキストの生成コストの削減に関する懸念を引き起こします。
このペーパーでは、オンラインでのスポンサー付きコンテンツの開示に関連する法的要件の執行に役立つこのようなモデルの可能性を調査します。
私たちは、Instagram の合成キャプションを生成するための LLM の使用を 2 つの目的で調査します。 1 つ目の目的 (忠実度) は、現実的な合成データセットを生成することです。
このため、コンテンツレベルとネットワークレベルのメトリクスを実装して、合成キャプションが現実的かどうかを評価します。
2 番目の目的 (ユーティリティ) は、スポンサー付きコンテンツの検出に役立つ合成データを作成することです。
このため、Instagram 上の未公開の広告を識別するための分類器をトレーニングするために生成された合成データの有効性を評価します。
私たちの調査では、忠実度と実用性の目的は矛盾する可能性があり、迅速なエンジニアリングは有用ではあるが不十分な戦略であることが示されています。
さらに、個々の合成投稿は現実的に見えるかもしれませんが、全体としては多様性、トピックのつながり、現実的なユーザー インタラクション パターンに欠けていることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) raise concerns about lowering the cost of generating texts that could be used for unethical or illegal purposes, especially on social media. This paper investigates the promise of such models to help enforce legal requirements related to the disclosure of sponsored content online. We investigate the use of LLMs for generating synthetic Instagram captions with two objectives: The first objective (fidelity) is to produce realistic synthetic datasets. For this, we implement content-level and network-level metrics to assess whether synthetic captions are realistic. The second objective (utility) is to create synthetic data that is useful for sponsored content detection. For this, we evaluate the effectiveness of the generated synthetic data for training classifiers to identify undisclosed advertisements on Instagram. Our investigations show that the objectives of fidelity and utility may conflict and that prompt engineering is a useful but insufficient strategy. Additionally, we find that while individual synthetic posts may appear realistic, collectively they lack diversity, topic connectivity, and realistic user interaction patterns.

arxiv情報

著者 Thales Bertaglia,Lily Heisig,Rishabh Kaushal,Adriana Iamnitchi
発行日 2024-03-22 13:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.SI パーマリンク