Stance-Driven Multimodal Controlled Statement Generation: New Dataset and Task

要約

特定のトピックに関する多様なスタンスや論争的なスタンスを支持する文章を作成することは、ユーザーの表現を可能にし、政治的言説を再構築し、社会批評や情報発信を推進するプラットフォームにとって不可欠である。大規模言語モデル(LLM)の台頭により、特定のスタンスに向けた制御可能なテキスト生成は、世論形成や商業マーケティングに応用可能な有望な研究分野となっている。しかし、現在のデータセットは、純粋なテキストにのみ焦点を当てていることが多く、マルチモーダルコンテンツや効果的なコンテキスト、特にスタンス検出のコンテキストが欠けている。本論文では、テキストと画像を含むツイートに対する、スタンス駆動型の制御可能なコンテンツ生成という新しい問題を正式に定義し、研究する。この目的のために、我々は政治的言説におけるマルチモーダルなスタンス制御可能なテキスト生成のために明示的に設計された最初のリソースである、マルチモーダルスタンス生成データセット(StanceGen2024)を作成する。このデータセットには、2024年の米国大統領選挙の投稿とユーザーコメントが含まれ、テキスト、画像、ビデオ、スタンス注釈が含まれ、マルチモーダルな政治コンテンツがスタンス表現をどのように形成するかを探る。さらに、意味的一貫性とスタンス制御を改善するために、マルチモーダル特徴の重み付け融合とスタンスガイダンスを統合するスタンス駆動マルチモーダル生成(SDMG)フレームワークを提案する。データセットとコード(https://anonymous.4open.science/r/StanceGen-BE9D)を公開する。

要約(オリジナル)

Formulating statements that support diverse or controversial stances on specific topics is vital for platforms that enable user expression, reshape political discourse, and drive social critique and information dissemination. With the rise of Large Language Models (LLMs), controllable text generation towards specific stances has become a promising research area with applications in shaping public opinion and commercial marketing. However, current datasets often focus solely on pure texts, lacking multimodal content and effective context, particularly in the context of stance detection. In this paper, we formally define and study the new problem of stance-driven controllable content generation for tweets with text and images, where given a multimodal post (text and image/video), a model generates a stance-controlled response. To this end, we create the Multimodal Stance Generation Dataset (StanceGen2024), the first resource explicitly designed for multimodal stance-controllable text generation in political discourse. It includes posts and user comments from the 2024 U.S. presidential election, featuring text, images, videos, and stance annotations to explore how multimodal political content shapes stance expression. Furthermore, we propose a Stance-Driven Multimodal Generation (SDMG) framework that integrates weighted fusion of multimodal features and stance guidance to improve semantic consistency and stance control. We release the dataset and code (https://anonymous.4open.science/r/StanceGen-BE9D) for public use and further research.

arxiv情報

著者 Bingqian Wang,Quan Fang,Jiachen Sun,Xiaoxiao Ma
発行日 2025-04-04 09:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク