Natural Language Planning via Coding and Inference Scaling

要約

特に複雑さが高い場合、会議のスケジューリングなどの実際のテキスト計画タスクはLLMに大きな挑戦をもたらしました。
以前の研究では、主に閉鎖モデルを使用した自動回帰的生成プランの生成を研究しましたが、プランを出力するために実行されるプログラムを生成する際に、推論中に複雑さを伴う出力の長さをスケーリングするものを含む、閉鎖モデルとオープンソースモデルの両方を体系的に評価します。
標準のPythonコードだけでなく、制約満足度問題ソルバーへのコードも検討します。
タスクのアルゴリズムの性質にもかかわらず、プログラミングはしばしば計画を上回るとは限りませんが、計画を上回ることを示しています。
詳細なエラー分析は、一般化を妨げる生成されたコードの堅牢性と効率の欠如も示しています。

要約(オリジナル)

Real-life textual planning tasks such as meeting scheduling have posed much challenge to LLMs especially when the complexity is high. While previous work primarily studied auto-regressive generation of plans with closed-source models, we systematically evaluate both closed- and open-source models, including those that scales output length with complexity during inference, in generating programs, which are executed to output the plan. We consider not only standard Python code, but also the code to a constraint satisfaction problem solver. Despite the algorithmic nature of the task, we show that programming often but not always outperforms planning. Our detailed error analysis also indicates a lack of robustness and efficiency in the generated code that hinders generalization.

arxiv情報

著者 Rikhil Amonkar,Ronan Le Bras,Li Zhang
発行日 2025-05-19 15:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Natural Language Planning via Coding and Inference Scaling はコメントを受け付けていません

HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding

要約

大規模な言語モデル(LLM)推論の標準的なアプローチであるオートレーフレフデコードは、その連続的な性質のために重要なボトルネックのままです。
投機的デコードアルゴリズムは、並列検証を通じてこの非効率性を緩和しますが、言語の複雑さに固有の不均一性を活用することができません。
これに対処し、言語のコンテキストの複雑さに基づいて計算リソース割り当てを動的に最適化する不均一性に適した投機的デコードフレームワークであるヘテロセッキを提案します。
HeteroSpecは、予測可能なコンテキストを効率的に識別するための新しい累積メタパス上部$ $ k $エントロピーメトリックの2つの重要なメカニズムを導入します。
(2)データ駆動型のエントロピー分割に基づいた動的なリソース割り当て戦略、適応的な投機的拡張を可能にし、ローカルコンテキストの難易度に合わせた剪定。
5つのパブリックベンチマークと4つのモデルで評価されたHeteroSpecは、平均スピードアップ4.26 $ \ Times $を達成します。
スピードアップレート、平均受け入れ長、および検証コストを越えて、最先端のEagle-3を常に上回っています。
特に、HeteroSpecはドラフトモデル再訓練を必要とせず、最小限のオーバーヘッドを負担し、他の加速技術に直交します。
より強力なドラフトモデルによる加速度の強化を示し、コンテキストを認識したLLM推論の加速のための新しいパラダイムを確立します。

要約(オリジナル)

Autoregressive decoding, the standard approach for Large Language Model (LLM) inference, remains a significant bottleneck due to its sequential nature. While speculative decoding algorithms mitigate this inefficiency through parallel verification, they fail to exploit the inherent heterogeneity in linguistic complexity, a key factor leading to suboptimal resource allocation. We address this by proposing HeteroSpec, a heterogeneity-adaptive speculative decoding framework that dynamically optimizes computational resource allocation based on linguistic context complexity. HeteroSpec introduces two key mechanisms: (1) A novel cumulative meta-path Top-$K$ entropy metric for efficiently identifying predictable contexts. (2) A dynamic resource allocation strategy based on data-driven entropy partitioning, enabling adaptive speculative expansion and pruning tailored to local context difficulty. Evaluated on five public benchmarks and four models, HeteroSpec achieves an average speedup of 4.26$\times$. It consistently outperforms state-of-the-art EAGLE-3 across speedup rates, average acceptance length, and verification cost. Notably, HeteroSpec requires no draft model retraining, incurs minimal overhead, and is orthogonal to other acceleration techniques. It demonstrates enhanced acceleration with stronger draft models, establishing a new paradigm for context-aware LLM inference acceleration.

arxiv情報

著者 Siran Liu,Yang Ye,Qianchao Zhu,Zheng Cao,Yongchao He
発行日 2025-05-19 15:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding はコメントを受け付けていません

WikiPersonas: What Can We Learn From Personalized Alignment to Famous People?

要約

優先アライメントは、fineTuningモデルの標準的なパイプラインとなり、\ emphing {generic}人間の好みに従います。
作業の大部分は、モデルを最適化して、平均して{平均して} {平均して}を好む応答を生成し、多様でしばしば頻繁に{矛盾する}人間の好みの空間を簡素化しようとしています。
研究は、個々のユーザー設定にモデルを適応させるパーソナライズされたアライメントにますます焦点を当てていますが、微妙な個人レベルの好みに焦点を当てたパーソナライズされた選好データセットが不足しています。
これに対処するために、Wikipersonaを紹介します。
データセットは、解釈可能なプロセスを通じてこれらのペルソナと一致するようにモデルに挑戦します。ペルソナの背景と整合性に加えて、検証可能なテキストの説明を生成します。
さまざまなパーソナライズアプローチを体系的に評価し、好みと微調整を伴う少数の促しを同時に確保できないことがわかります。

要約(オリジナル)

Preference alignment has become a standard pipeline in finetuning models to follow \emph{generic} human preferences. Majority of work seeks to optimize model to produce responses that would be preferable \emph{on average}, simplifying the diverse and often \emph{contradicting} space of human preferences. While research has increasingly focused on personalized alignment: adapting models to individual user preferences, there is a lack of personalized preference dataset which focus on nuanced individual-level preferences. To address this, we introduce WikiPersona: the first fine-grained personalization using well-documented, famous individuals. Our dataset challenges models to align with these personas through an interpretable process: generating verifiable textual descriptions of a persona’s background and preferences in addition to alignment. We systematically evaluate different personalization approaches and find that as few-shot prompting with preferences and fine-tuning fail to simultaneously ensure effectiveness and efficiency, using \textit{inferred personal preferences} as prefixes enables effective personalization, especially in topics where preferences clash while leading to more equitable generalization across unseen personas.

arxiv情報

著者 Zilu Tang,Afra Feyza Akyürek,Ekin Akyürek,Derry Wijaya
発行日 2025-05-19 15:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | WikiPersonas: What Can We Learn From Personalized Alignment to Famous People? はコメントを受け付けていません

Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability

要約

検索された生成(RAG)は、知識集約型ドメインでの大規模な言語モデル(LLM)のパフォーマンスを大幅に改善しました。
ただし、RAGは異なるドメインで成功を達成しましたが、まだ解決されていない課題がいくつかあります。1)有効性。
既存の研究は、主により強力なぼろレトリーバーの開発に焦点を当てていますが、推論と生成のために検索された情報を利用する発電機(LLM)能力を強化する方法は?
2)透明性。
ほとんどのRAGメソッドは、取得したコンテンツが実際に推論プロセスに寄与するかを無視し、解釈可能性と視認性の欠如をもたらします。
これに対処するために、提案された報酬とともに強化学習(RL)を介してトレーニングされた透明なRAGジェネレーターフレームワークであるArena(Adaptive-Rewarded Evidence Navigation Agent)を提案します。
構造化された生成と適応報酬計算に基づいて、当社のRLベースのトレーニングにより、モデルは重要な証拠を特定し、構造化された推論を実行し、解釈可能な決定トレースで回答を生成できます。
QWEN2.5-7B-Instructおよびllama3.1-8B-instructに適用されると、さまざまなRAGベースラインを用いた豊富な実験は、モデルがすべてのマルチホップQAデータセットで10〜30%の改善を達成することを示しています。
さらなる分析により、アリーナは、追加のトレーニングなしで新しいデータセットで採用される柔軟性が強いことが示されています。
モデルとコードは公開されています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has significantly improved the performance of large language models (LLMs) on knowledge-intensive domains. However, although RAG achieved successes across distinct domains, there are still some unsolved challenges: 1) Effectiveness. Existing research mainly focuses on developing more powerful RAG retrievers, but how to enhance the generator’s (LLM’s) ability to utilize the retrieved information for reasoning and generation? 2) Transparency. Most RAG methods ignore which retrieved content actually contributes to the reasoning process, resulting in a lack of interpretability and visibility. To address this, we propose ARENA (Adaptive-Rewarded Evidence Navigation Agent), a transparent RAG generator framework trained via reinforcement learning (RL) with our proposed rewards. Based on the structured generation and adaptive reward calculation, our RL-based training enables the model to identify key evidence, perform structured reasoning, and generate answers with interpretable decision traces. Applied to Qwen2.5-7B-Instruct and Llama3.1-8B-Instruct, abundant experiments with various RAG baselines demonstrate that our model achieves 10-30% improvements on all multi-hop QA datasets, which is comparable with the SOTA Commercially-developed LLMs (e.g., OpenAI-o1, DeepSeek-R1). Further analyses show that ARENA has strong flexibility to be adopted on new datasets without extra training. Our models and codes are publicly released.

arxiv情報

著者 Jingyi Ren,Yekun Xu,Xiaolong Wang,Weitao Li,Weizhi Ma,Yang Liu
発行日 2025-05-19 15:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability はコメントを受け付けていません

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

要約

大規模な言語モデル(LLM)は、科学的発見のパラダイムシフトを触媒し、タスク固有の自動化ツールからますます自律的なエージェントに進化し、研究プロセスと人間とのコラボレーションを根本的に再定義します。
この調査は、この急成長する分野を体系的にチャート化し、科学におけるLLMの変化する役割とエスカレート能力に中心的に焦点を当てています。
科学的方法のレンズを通じて、私たちは、研究ライフサイクル内で彼らのエスカレートする自律性と進化する責任を描写するために、基本的な3レベルの分類学、アナリスト、科学者を紹介します。
さらに、ロボットオートメーション、自己改善、倫理ガバナンスなどの極めて重要な課題と将来の研究軌跡を特定します。
全体として、この調査は、AI主導の科学的発見の未来をナビゲートし、形成するための概念的なアーキテクチャと戦略的先見性を提供し、迅速な革新と責任ある進歩の両方を促進します。
githubリポジトリ:https://github.com/hkust-knowcomp/awesome-llm-scientific-discovery。

要約(オリジナル)

Large Language Models (LLMs) are catalyzing a paradigm shift in scientific discovery, evolving from task-specific automation tools into increasingly autonomous agents and fundamentally redefining research processes and human-AI collaboration. This survey systematically charts this burgeoning field, placing a central focus on the changing roles and escalating capabilities of LLMs in science. Through the lens of the scientific method, we introduce a foundational three-level taxonomy-Tool, Analyst, and Scientist-to delineate their escalating autonomy and evolving responsibilities within the research lifecycle. We further identify pivotal challenges and future research trajectories such as robotic automation, self-improvement, and ethical governance. Overall, this survey provides a conceptual architecture and strategic foresight to navigate and shape the future of AI-driven scientific discovery, fostering both rapid innovation and responsible advancement. Github Repository: https://github.com/HKUST-KnowComp/Awesome-LLM-Scientific-Discovery.

arxiv情報

著者 Tianshi Zheng,Zheye Deng,Hong Ting Tsang,Weiqi Wang,Jiaxin Bai,Zihao Wang,Yangqiu Song
発行日 2025-05-19 15:41:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery はコメントを受け付けていません

The Hidden Strength of Disagreement: Unraveling the Consensus-Diversity Tradeoff in Adaptive Multi-Agent Systems

要約

コンセンサス形成は、マルチエージェントシステム(MAS)で極めて重要であり、集合的な一貫性と個々の多様性のバランスを取ります。
従来のLLMベースのMAは、主に明示的な調整、たとえばプロンプトまたは投票に依存しており、早期均質化を危険にさらしています。
エージェントが情報を交換しながら、コンテキスト内学習を介して独立して決定を形成する暗黙のコンセンサスは、長老の適応性を必要とする動的環境でより効果的になる可能性があると主張します。
部分的な多様性を維持することにより、システムは新しい戦略をよりよく探求し、外部ショックに対処することができます。
暗黙の方法が明示的な方法よりも優れている条件を示すコンセンサスダイバーシティトレードオフを正式にします。
動的な災害対応、情報の拡散と操作、動的な公共財産の規定の3つのシナリオでの実験は、グループ規範からの部分的な逸脱を確認し、探索、堅牢性、パフォーマンスを高めます。
コンテキスト内学習を介して緊急の調整を強調し、回復力のある意思決定のために多様性を維持することの価値を強調します。

要約(オリジナル)

Consensus formation is pivotal in multi-agent systems (MAS), balancing collective coherence with individual diversity. Conventional LLM-based MAS primarily rely on explicit coordination, e.g., prompts or voting, risking premature homogenization. We argue that implicit consensus, where agents exchange information yet independently form decisions via in-context learning, can be more effective in dynamic environments that require long-horizon adaptability. By retaining partial diversity, systems can better explore novel strategies and cope with external shocks. We formalize a consensus-diversity tradeoff, showing conditions where implicit methods outperform explicit ones. Experiments on three scenarios — Dynamic Disaster Response, Information Spread and Manipulation, and Dynamic Public-Goods Provision — confirm partial deviation from group norms boosts exploration, robustness, and performance. We highlight emergent coordination via in-context learning, underscoring the value of preserving diversity for resilient decision-making.

arxiv情報

著者 Zengqing Wu,Takayuki Ito
発行日 2025-05-19 15:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MA | The Hidden Strength of Disagreement: Unraveling the Consensus-Diversity Tradeoff in Adaptive Multi-Agent Systems はコメントを受け付けていません

CSC-SQL: Corrective Self-Consistency in Text-to-SQL via Reinforcement Learning

要約

大規模な言語モデル(LLMS)は、リレーショナルデータベースに関する自然言語の質問をSQLクエリに翻訳する際の強力な能力を実証しています。
特に、自己整合や自己修正などのテスト時間スケーリング手法は、推論中の計算努力を増やすことにより、SQL生成の精度を高めることができます。
ただし、これらの方法には顕著な制限があります。自己整合性は、多数票にもかかわらず最適ではない出力を選択する場合がありますが、自己修正は通常、構文エラーのみに対処します。
両方のアプローチの強みを活用するために、CSC-SQLを提案します。これは、自己整合性と自己修正を統合する新しい方法です。
CSC-SQLは、並列サンプリングから最も頻繁に発生する2つの出力を選択し、修正のためにそれらをマージ改訂モデルに送ります。
さらに、グループ相対ポリシー最適化(GRPO)アルゴリズムを採用して、補強学習を介してSQL生成モデルと改訂モデルの両方を微調整し、出力品質を大幅に向上させます。
実験結果は、CSC-SQLの有効性と一般化可能性を確認します。
鳥の発達セットでは、3Bモデルは65.28%の実行精度を達成し、7Bモデルは69.19%を達成します。
コードはhttps://github.com/cycloneboy/csc_sqlで開かれます。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong capabilities in translating natural language questions about relational databases into SQL queries. In particular, test-time scaling techniques such as Self-Consistency and Self-Correction can enhance SQL generation accuracy by increasing computational effort during inference. However, these methods have notable limitations: Self-Consistency may select suboptimal outputs despite majority votes, while Self-Correction typically addresses only syntactic errors. To leverage the strengths of both approaches, we propose CSC-SQL, a novel method that integrates Self-Consistency and Self-Correction. CSC-SQL selects the two most frequently occurring outputs from parallel sampling and feeds them into a merge revision model for correction. Additionally, we employ the Group Relative Policy Optimization (GRPO) algorithm to fine-tune both the SQL generation and revision models via reinforcement learning, significantly enhancing output quality. Experimental results confirm the effectiveness and generalizability of CSC-SQL. On the BIRD development set, our 3B model achieves 65.28% execution accuracy, while the 7B model achieves 69.19%. The code will be open sourced at https://github.com/CycloneBoy/csc_sql.

arxiv情報

著者 Lei Sheng,Shuai-Shuai Xu
発行日 2025-05-19 15:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CSC-SQL: Corrective Self-Consistency in Text-to-SQL via Reinforcement Learning はコメントを受け付けていません

$\textit{Rank, Chunk and Expand}$: Lineage-Oriented Reasoning for Taxonomy Expansion

要約

分類法は、推奨システムおよびWebアプリケーションに不可欠な階層的な知識グラフです。
データが増えるにつれて、分類法の拡大が不可欠ですが、既存の方法は重要な課題に直面しています。(1)差別的モデルは表現の制限と一般化に苦しんでいますが、(2)生成方法は、すべての候補を一度に処理し、ノイズとコンテキストの制限を超えるか、ノイジー候補を選択して関連するエンティティを破棄します。
lorex($ \ textbf {l} $ ineage-$ \ textbf {o} $ riented $ \ textbf {re} $分類e $ \ textbf {x} $ pansion)は、有効なランキングと有効な拡張のための生成的推論の拡大を組み合わせたプラグアンドプレイフレームワークを組み合わせて提案します。
以前の方法とは異なり、Lorexは候補者の用語をバッチにランク付けし、候補者のフィルタリング、候補者の階層を推論して文脈効率を確保することにより、選択を繰り返し精製します。
4つのベンチマークと12のベースラインにわたる広範な実験により、Lorexが最先端の方法で正確性を12%、Wu&Palmerの類似性を5%改善することが示されています。

要約(オリジナル)

Taxonomies are hierarchical knowledge graphs crucial for recommendation systems, and web applications. As data grows, expanding taxonomies is essential, but existing methods face key challenges: (1) discriminative models struggle with representation limits and generalization, while (2) generative methods either process all candidates at once, introducing noise and exceeding context limits, or discard relevant entities by selecting noisy candidates. We propose LORex ($\textbf{L}$ineage-$\textbf{O}$riented $\textbf{Re}$asoning for Taxonomy E$\textbf{x}$pansion), a plug-and-play framework that combines discriminative ranking and generative reasoning for efficient taxonomy expansion. Unlike prior methods, LORex ranks and chunks candidate terms into batches, filtering noise and iteratively refining selections by reasoning candidates’ hierarchy to ensure contextual efficiency. Extensive experiments across four benchmarks and twelve baselines show that LORex improves accuracy by 12% and Wu & Palmer similarity by 5% over state-of-the-art methods.

arxiv情報

著者 Sahil Mishra,Kumar Arjun,Tanmoy Chakraborty
発行日 2025-05-19 16:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | $\textit{Rank, Chunk and Expand}$: Lineage-Oriented Reasoning for Taxonomy Expansion はコメントを受け付けていません

Tracr-Injection: Distilling Algorithms into Pre-trained Language Models

要約

大規模な言語モデルの急増に動機付けられているため、トランスアーキテクチャに固有の象徴的な能力を正式に特徴づけることが推進されてきました。
Raspと呼ばれるプログラミング言語が提案されており、これらのアルゴリズムを実装するためにトランスウェイトに直接コンパイルできます。
ただし、Raspで実装できるタスクは、自然な監視されていないデータから学習することはまれであり、変圧器アーキテクチャの理論的能力と、監視されていないデータからのこれらの機能の実用的な学習可能性を示すことはまれです。
Raspで記述されたアルゴリズムを事前訓練を受けた言語モデルに直接蒸留できるようにする方法を提案します。
3つの異なるアルゴリズムを言語モデルに注入することにより、方法を紹介します。
モデルの残留ストリーム内にメソッドが解釈可能な部分空間を作成する方法を示します。これは、RASPアルゴリズムのコードに存在する変数にデコードできます。
さらに、提案された方法は、私たちのベースラインと比較して、分散型のパフォーマンスを改善できることがわかりました。これは、実際にモデルの内側の仕組みでより象徴的なメカニズムが起こっていることを示しています。
実験を実行するために使用されるコードをリリースします。

要約(オリジナル)

Motivated by the surge of large language models, there has been a push to formally characterize the symbolic abilities intrinsic to the transformer architecture. A programming language, called RASP, has been proposed, which can be directly compiled into transformer weights to implement these algorithms. However, the tasks that can be implemented in RASP are often uncommon to learn from natural unsupervised data, showing a mismatch between theoretical capabilities of the transformer architecture, and the practical learnability of these capabilities from unsupervised data. We propose tracr-injection, a method that allows us to distill algorithms written in RASP directly into a pre-trained language model. We showcase our method by injecting 3 different algorithms into a language model. We show how our method creates an interpretable subspace within the model’s residual stream, which can be decoded into the variables present in the code of the RASP algorithm. Additionally, we found that the proposed method can improve out-of-distribution performance compared to our baseline, indicating that indeed a more symbolic mechanism is taking place in the inner workings of the model. We release the code used to run our experiments.

arxiv情報

著者 Tomás Vergara-Browne,Álvaro Soto
発行日 2025-05-19 16:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Tracr-Injection: Distilling Algorithms into Pre-trained Language Models はコメントを受け付けていません

I’ll believe it when I see it: Images increase misinformation sharing in Vision-Language Models

要約

大規模な言語モデルは、ニュース推奨システムにますます統合されており、誤った情報の広がりにおける役割についての懸念を引き起こしています。
人間では、視覚的な内容は情報の信頼性と共有性を高めることが知られていますが、視覚言語モデル(VLM)への影響は不明のままです。
画像がニュースコンテンツを再配ッシするVLMの傾向にどのように影響するか、この効果がモデルファミリによって異なるかどうか、およびペルソナコンディショニングとコンテンツ属性がこの動作をどのように変調するかを調べる最初の研究を提示します。
この分析をサポートするために、2つの方法論的貢献を紹介します。VLMSからの再配ッシの決定を誘発しながら、反社会的特性と政治的整合性を備えたユーザーをシミュレートする脱獄にインスパイアされたプロンプト戦略。
そして、対応する画像と根本的な真実性ラベルと組み合わせた、政治的な事実確認された政治ニュースのマルチモーダルデータセット。
モデルファミリ全体の実験により、画像の存在は、真のニュースでは4.8%、誤ったニュースで15.0%増加することが明らかになりました。
ペルソナコンディショニングはこの効果をさらに調節します。ダークトライアド特性は、誤ったニュースの再シャアリングを増幅しますが、共和党員のプロファイルは真実性の感度の低下を示します。
すべてのテストされたモデルのうち、Claude-3-Haikuのみが視覚的誤った情報に対する堅牢性を示しています。
これらの調査結果は、マルチモーダルモデルの動作における新たなリスクを強調し、パーソナライズされたAIシステムのカスタマイズされた評価フレームワークと緩和戦略の開発を動機付けます。
コードとデータセットは、https://github.com/3lis/misinfo_vlmで入手できます

要約(オリジナル)

Large language models are increasingly integrated into news recommendation systems, raising concerns about their role in spreading misinformation. In humans, visual content is known to boost credibility and shareability of information, yet its effect on vision-language models (VLMs) remains unclear. We present the first study examining how images influence VLMs’ propensity to reshare news content, whether this effect varies across model families, and how persona conditioning and content attributes modulate this behavior. To support this analysis, we introduce two methodological contributions: a jailbreaking-inspired prompting strategy that elicits resharing decisions from VLMs while simulating users with antisocial traits and political alignments; and a multimodal dataset of fact-checked political news from PolitiFact, paired with corresponding images and ground-truth veracity labels. Experiments across model families reveal that image presence increases resharing rates by 4.8% for true news and 15.0% for false news. Persona conditioning further modulates this effect: Dark Triad traits amplify resharing of false news, whereas Republican-aligned profiles exhibit reduced veracity sensitivity. Of all the tested models, only Claude-3-Haiku demonstrates robustness to visual misinformation. These findings highlight emerging risks in multimodal model behavior and motivate the development of tailored evaluation frameworks and mitigation strategies for personalized AI systems. Code and dataset are available at: https://github.com/3lis/misinfo_vlm

arxiv情報

著者 Alice Plebe,Timothy Douglas,Diana Riazi,R. Maria del Rio-Chanona
発行日 2025-05-19 16:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | I’ll believe it when I see it: Images increase misinformation sharing in Vision-Language Models はコメントを受け付けていません