Passing the Turing Test in Political Discourse: Fine-Tuning LLMs to Mimic Polarized Social Media Comments

要約

大規模な言語モデル(LLM)の高度化の増加は、説得力のある偏ったコンテンツの自動生成を通じて、イデオロギーの二極化を悪化させる潜在的な役割に関する懸念の高まりを引き起こしました。
この研究では、微調整されたLLMがオンライン環境内で偏光談話を複製して増幅できる程度を調査します。
Redditから抽出された政治的に充電された議論のキュレーションされたデータセットを使用して、オープンソースLLMを微調整して、コンテキストに対応したイデオロギー的に整合した応答を生成します。
モデルの出力は、言語分析、センチメントスコアリング、および人間の注釈を通じて評価され、特に元の談話との信頼性と修辞的な整合に注意を払っています。
結果は、党派のデータで訓練された場合、LLMは非常にもっともらしいコメントで挑発的なコメントを作成できることを示しています。
これらの調査結果は、政治的言説、偽情報、操作キャンペーンにおけるAIの使用に関する重要な倫理的疑問を提起します。
この論文は、AIガバナンス、プラットフォーム規制、および敵対的な微調整リスクを緩和するための検出ツールの開発に対するより広範な意味合いについての議論で締めくくります。

要約(オリジナル)

The increasing sophistication of large language models (LLMs) has sparked growing concerns regarding their potential role in exacerbating ideological polarization through the automated generation of persuasive and biased content. This study explores the extent to which fine-tuned LLMs can replicate and amplify polarizing discourse within online environments. Using a curated dataset of politically charged discussions extracted from Reddit, we fine-tune an open-source LLM to produce context-aware and ideologically aligned responses. The model’s outputs are evaluated through linguistic analysis, sentiment scoring, and human annotation, with particular attention to credibility and rhetorical alignment with the original discourse. The results indicate that, when trained on partisan data, LLMs are capable of producing highly plausible and provocative comments, often indistinguishable from those written by humans. These findings raise significant ethical questions about the use of AI in political discourse, disinformation, and manipulation campaigns. The paper concludes with a discussion of the broader implications for AI governance, platform regulation, and the development of detection tools to mitigate adversarial fine-tuning risks.

arxiv情報

著者 . Pazzaglia,V. Vendetti,L. D. Comencini,F. Deriu,V. Modugno
発行日 2025-06-17 15:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク