HPSS: Heuristic Prompting Strategy Search for LLM Evaluators

要約

テキスト評価のための大規模な言語モデル(LLMS)の採用は、自然言語加工(NLP)の分野でますます一般的になっているため、LLM評価者が人間の判断との調整を改善するためのプロンプトを最適化しようとしています。
ただし、評価基準や出力形式など、評価プロンプトの個々の要因を最適化すること、複数の要因の組み合わせの影響を無視することに限定されているため、評価パイプラインの最適化が不十分になります。
それにもかかわらず、複数の要因を調整するための行儀の良いプロンプト戦略を特定するには、広範な列挙が必要です。
この目的のために、評価プロンプトの8つの重要な要因を包括的に統合し、ヒューリスティックプロンプト戦略検索(HPS)と呼ばれる新しい自動プロンプト戦略最適化方法を提案します。
遺伝的アルゴリズムに触発されたHPSSは、LLM評価者向けの行儀のプロンプト戦略を見つけるために反復検索を実施します。
ヒューリスティック機能が使用され、検索プロセスを導き、アルゴリズムのパフォーマンスを向上させます。
4つの評価タスクにわたる広範な実験は、HPSSの有効性を示しており、人間が設計した評価プロンプトと既存の自動プロンプト最適化方法の両方を常に上回っています。

要約(オリジナル)

Since the adoption of large language models (LLMs) for text evaluation has become increasingly prevalent in the field of natural language processing (NLP), a series of existing works attempt to optimize the prompts for LLM evaluators to improve their alignment with human judgment. However, their efforts are limited to optimizing individual factors of evaluation prompts, such as evaluation criteria or output formats, neglecting the combinatorial impact of multiple factors, which leads to insufficient optimization of the evaluation pipeline. Nevertheless, identifying well-behaved prompting strategies for adjusting multiple factors requires extensive enumeration. To this end, we comprehensively integrate 8 key factors for evaluation prompts and propose a novel automatic prompting strategy optimization method called Heuristic Prompting Strategy Search (HPSS). Inspired by the genetic algorithm, HPSS conducts an iterative search to find well-behaved prompting strategies for LLM evaluators. A heuristic function is employed to guide the search process, enhancing the performance of our algorithm. Extensive experiments across four evaluation tasks demonstrate the effectiveness of HPSS, consistently outperforming both human-designed evaluation prompts and existing automatic prompt optimization methods.

arxiv情報

著者 Bosi Wen,Pei Ke,Yufei Sun,Cunxiang Wang,Xiaotao Gu,Jinfeng Zhou,Jie Tang,Hongning Wang,Minlie Huang
発行日 2025-02-18 16:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HPSS: Heuristic Prompting Strategy Search for LLM Evaluators はコメントを受け付けていません

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

要約

OpenaiのO1などの大規模な言語モデル(LLM)は、テスト時間の計算をスケーリングし、人間のような深い思考を示すことにより、複雑な推論タスクで顕著な能力を示しています。
ただし、考えているという現象を特定します。これは、O1のようなLLMが、正しいソリューションに到達するための有望なパスを十分に探求することなく、異なる推論の考えを頻繁に切り替えることです。
この動作は、特に挑戦的な数学的な問題で、推論の深さの深さとパフォーマンスの低下につながります。
この問題を体系的に分析するために、3つの挑戦的なテストセットと2つの代表的なオープンソースO1様モデルで実験を実施し、頻繁に思考スイッチングが誤った応答と相関することを明らかにします。
誤った回答のトークン効率を測定することにより、アンダーリンクを定量化するための新しいメトリックを導入します。
考え直しに対処するために、思考の切り替えペナルティヒントを備えたデコード戦略を提案します。これは、思考間の時期尚早の移行を阻止し、各推論パスのより深い調査を促進します。
実験結果は、モデルの微調整を必要とせずに、私たちのアプローチが挑戦的なデータセット全体で精度を向上させることを示しています。
私たちの調査結果は、O1様LLMの推論の非効率性を理解することに貢献し、問題解決能力を高めるための実用的なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) such as OpenAI’s o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

arxiv情報

著者 Yue Wang,Qiuzhi Liu,Jiahao Xu,Tian Liang,Xingyu Chen,Zhiwei He,Linfeng Song,Dian Yu,Juntao Li,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-02-18 16:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs はコメントを受け付けていません

Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction

要約

Aspect Sentiment Quadruple Prediction(ASQP)は、各意見の意見用語、アスペクト用語、アスペクトカテゴリ、およびセンチメントの極性を特定することにより、テキストで表明された意見の詳細な理解を促進します。
ただし、ASQPのモデルを微調整するためのトレーニング例の完全なセットに注釈を付けることは、リソース集約型プロセスです。
この研究では、5つの多様なデータセットにわたってASQPタスクでゼロおよび少ないショット学習のための大規模な言語モデル(LLMS)の機能を調査します。
F1スコアは、最先端の微調整モデルで得られたものをわずかに下回っていますが、以前に報告されたゼロおよび少数のショットパフォーマンスを超えています。
REST16レストランドメインデータセットの40ショット設定では、LLMSは52.46のF1スコアを達成しましたが、最高のパフォーマンスの微調整方法MVPによって60.39と比較して達成されました。
さらに、ターゲットアスペクトセンチメント検出(TASD)でのLLMSのパフォーマンスを報告します。F1スコアも微調整されたモデルに近く、MVPの72.76と比較して、40ショット設定でREST 16で66.03を達成しました。
人間のアノテーターは最適なパフォーマンスを達成するために不可欠なままですが、LLMはASQPタスクでの広範な手動注釈の必要性を減らすことができます。

要約(オリジナル)

Aspect sentiment quadruple prediction (ASQP) facilitates a detailed understanding of opinions expressed in a text by identifying the opinion term, aspect term, aspect category and sentiment polarity for each opinion. However, annotating a full set of training examples to fine-tune models for ASQP is a resource-intensive process. In this study, we explore the capabilities of large language models (LLMs) for zero- and few-shot learning on the ASQP task across five diverse datasets. We report F1 scores slightly below those obtained with state-of-the-art fine-tuned models but exceeding previously reported zero- and few-shot performance. In the 40-shot setting on the Rest16 restaurant domain dataset, LLMs achieved an F1 score of 52.46, compared to 60.39 by the best-performing fine-tuned method MVP. Additionally, we report the performance of LLMs in target aspect sentiment detection (TASD), where the F1 scores were also close to fine-tuned models, achieving 66.03 on Rest16 in the 40-shot setting, compared to 72.76 with MVP. While human annotators remain essential for achieving optimal performance, LLMs can reduce the need for extensive manual annotation in ASQP tasks.

arxiv情報

著者 Nils Constantin Hellwig,Jakob Fehle,Udo Kruschwitz,Christian Wolff
発行日 2025-02-18 16:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction はコメントを受け付けていません

AEIA-MN: Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks

要約

研究者がAIエージェントを継続的に最適化して、オペレーティングシステム内でタスクをより効果的に実行するため、これらのエージェントがシステム内で「詐欺師」を特定できるようにするための重要なニーズに対処することを怠ることがよくあります。
エージェントの操作環境の分析を通じて、潜在的な脅威を特定しました。攻撃者は攻撃方法を環境要素として偽装し、エージェントの実行プロセスに積極的な障害を注入し、それによって意思決定を混乱させることができます。
このタイプの攻撃をアクティブな環境注入攻撃(AEIA)として定義します。
これに基づいて、モバイルオペレーティングシステムの相互作用の脆弱性を活用して、そのような脅威に対するMLLMベースのエージェントの堅牢性を評価するアクティブな環境注入攻撃スキームであるAEIA-MNを提案します。
実験結果は、高度なMLLMでさえこの攻撃に対して非常に脆弱であり、AndroidWorldベンチマークで93%の最大攻撃成功率を達成することを示しています。

要約(オリジナル)

As researchers continuously optimize AI agents to perform tasks more effectively within operating systems, they often neglect to address the critical need for enabling these agents to identify ‘impostors’ within the system. Through an analysis of the agents’ operating environment, we identified a potential threat: attackers can disguise their attack methods as environmental elements, injecting active disturbances into the agents’ execution process, thereby disrupting their decision-making. We define this type of attack as Active Environment Injection Attack (AEIA). Based on this, we propose AEIA-MN, an active environment injection attack scheme that exploits interaction vulnerabilities in the mobile operating system to evaluate the robustness of MLLM-based agents against such threats. Experimental results show that even advanced MLLMs are highly vulnerable to this attack, achieving a maximum attack success rate of 93% in the AndroidWorld benchmark.

arxiv情報

著者 Yurun Chen,Xueyu Hu,Keting Yin,Juncheng Li,Shengyu Zhang
発行日 2025-02-18 17:01:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AEIA-MN: Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks はコメントを受け付けていません

SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models

要約

さまざまなセクターにわたるマルチモーダル大手言語モデル(MLLM)の適用の増加により、出力の信頼性と精度、特に実際の情報に基づいたコンテンツを作成する能力(一般的およびドメイン固有の知識など)の本質にスポットライトを当てました。
この作業では、自然言語の短い質問に答えるためのMLLMの事実性能力を評価するための最初の包括的なマルチモーダルベンチマークであるSimpleVQAを紹介します。
SimpleVQAは、6つの重要な機能によって特徴付けられます。複数のタスクと複数のシナリオをカバーし、高品質で挑戦的なクエリを保証し、静的で時代を超越した参照の回答を維持し、評価するのが簡単です。
私たちのアプローチでは、視覚的な質問を客観的なイベントや一般的な知識に関する9つの異なるタスクに分類し、9つのトピック内にこれらを位置づけることが含まれます。
高品質の、簡潔な、明確な回答を保証するために、厳密な品質管理プロセスが実装され、LLM-As-a-Judgeスコアリングシステムを介して最小限の分散で評価を促進します。
SimpleVQAを使用して、エラーケースを特定して分析することにより、主要な18 Mllmsと8つのテキストのみのLLMの包括的な評価を実行し、画像の理解とテキスト生成能力を掘り下げます。

要約(オリジナル)

The increasing application of multi-modal large language models (MLLMs) across various sectors have spotlighted the essence of their output reliability and accuracy, particularly their ability to produce content grounded in factual information (e.g. common and domain-specific knowledge). In this work, we introduce SimpleVQA, the first comprehensive multi-modal benchmark to evaluate the factuality ability of MLLMs to answer natural language short questions. SimpleVQA is characterized by six key features: it covers multiple tasks and multiple scenarios, ensures high quality and challenging queries, maintains static and timeless reference answers, and is straightforward to evaluate. Our approach involves categorizing visual question-answering items into 9 different tasks around objective events or common knowledge and situating these within 9 topics. Rigorous quality control processes are implemented to guarantee high-quality, concise, and clear answers, facilitating evaluation with minimal variance via an LLM-as-a-judge scoring system. Using SimpleVQA, we perform a comprehensive assessment of leading 18 MLLMs and 8 text-only LLMs, delving into their image comprehension and text generation abilities by identifying and analyzing error cases.

arxiv情報

著者 Xianfu Cheng,Wei Zhang,Shiwei Zhang,Jian Yang,Xiangyuan Guan,Xianjie Wu,Xiang Li,Ge Zhang,Jiaheng Liu,Yuying Mai,Yutao Zeng,Zhoufutu Wen,Ke Jin,Baorui Wang,Weixiao Zhou,Yunhong Lu,Tongliang Li,Wenhao Huang,Zhoujun Li
発行日 2025-02-18 17:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models はコメントを受け付けていません

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

要約

最近の作品の範囲では、トークンの埋め込みまたはキー値キャッシュの代わりに入力として使用される、トークンのシーケンスが実際のベクトルのより短いシーケンスに使用されるより短いシーケンスへの圧縮の問題に対処しています。
これらのアプローチにより、既存の言語モデルでの計算量を減らすことができます。
エンコーダーとして強力なモデルに依存しているにもかかわらず、最大達成可能な損失レス圧縮比は通常X10よりも高くありません。
理論的には、16ビットの精度と控えめなベクトルサイズであっても、提示されたレートをはるかに超えているため、理論上、この事実は非常に興味深いものです。
この作業では、エンコーダーをサンプルごとの最適化手順に置き換えることにより、圧縮の限界を調査します。
X1500までの圧縮比を持つベクトルが存在することを示します。これは、既存のソリューションと実際に達成可能なソリューションの間に2つの桁のギャップを強調しています。
さらに、圧縮制限は、入力の長さではなく、減少する不確実性の量、つまり条件付けなしでこのシーケンスのクロスエントロピー損失によって決定されることを経験的に示します。
得られた制限は、入力埋め込みの理論的能力とそれらの実用的な利用との間の実質的なギャップを強調し、モデル設計の最適化の重要な余地を示唆しています。

要約(オリジナル)

A range of recent works addresses the problem of compression of sequence of tokens into a shorter sequence of real-valued vectors to be used as inputs instead of token embeddings or key-value cache. These approaches allow to reduce the amount of compute in existing language models. Despite relying on powerful models as encoders, the maximum attainable lossless compression ratio is typically not higher than x10. This fact is highly intriguing because, in theory, the maximum information capacity of large real-valued vectors is far beyond the presented rates even for 16-bit precision and a modest vector size. In this work, we explore the limits of compression by replacing the encoder with a per-sample optimization procedure. We show that vectors with compression ratios up to x1500 exist, which highlights two orders of magnitude gap between existing and practically attainable solutions. Furthermore, we empirically show that the compression limits are determined not by the length of the input but by the amount of uncertainty to be reduced, namely, the cross-entropy loss on this sequence without any conditioning. The obtained limits highlight the substantial gap between the theoretical capacity of input embeddings and their practical utilization, suggesting significant room for optimization in model design.

arxiv情報

著者 Yuri Kuratov,Mikhail Arkhipov,Aydar Bulatov,Mikhail Burtsev
発行日 2025-02-18 17:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity はコメントを受け付けていません

CausalGraph2LLM: Evaluating LLMs for Causal Queries

要約

科学研究では因果関係が不可欠であり、研究者が変数間の真の関係を解釈できるようにします。
これらの因果関係は、多くの場合、非環式グラフである因果グラフで表されます。
最近の大規模な言語モデル(LLMS)の進歩により、因果的推論の能力を調査することと、因果グラフを仮定する潜在的な使用に関心が高まっています。
これらのタスクでは、LLMが後続のダウンストリームタスクのために因果グラフを効果的にエンコードする必要があります。
このホワイトペーパーでは、LLMSの因果推論能力を評価するために、多様な因果グラフ設定にわたって70万クエリを超えるクエリを含む包括的なベンチマークであるCausalGraph2LLMを紹介します。
因果クエリを2つのタイプに分類します:グラフレベルとノードレベルのクエリ。
私たちは、私たちの研究のために、オープンソースと妥当性の両方のモデルの両方をベンチマークします。
私たちの調査結果は、LLMがこのドメインで有望である一方で、使用されるエンコーディングに非常に敏感であることを明らかにしています。
GPT-4やGemini-1.5などの有能なモデルでさえ、約60ドルの\%$の逸脱を伴うエンコーディングに対する感受性を示します。
さらに、下流の因果介入タスクに対するこの感度を示します。
さらに、LLMSは、パラメトリックメモリに由来する可能性のある因果グラフに関するコンテキスト情報を提示すると、しばしばバイアスを表示できることがわかります。

要約(オリジナル)

Causality is essential in scientific research, enabling researchers to interpret true relationships between variables. These causal relationships are often represented by causal graphs, which are directed acyclic graphs. With the recent advancements in Large Language Models (LLMs), there is an increasing interest in exploring their capabilities in causal reasoning and their potential use to hypothesize causal graphs. These tasks necessitate the LLMs to encode the causal graph effectively for subsequent downstream tasks. In this paper, we introduce CausalGraph2LLM, a comprehensive benchmark comprising over 700k queries across diverse causal graph settings to evaluate the causal reasoning capabilities of LLMs. We categorize the causal queries into two types: graph-level and node-level queries. We benchmark both open-sourced and propriety models for our study. Our findings reveal that while LLMs show promise in this domain, they are highly sensitive to the encoding used. Even capable models like GPT-4 and Gemini-1.5 exhibit sensitivity to encoding, with deviations of about $60\%$. We further demonstrate this sensitivity for downstream causal intervention tasks. Moreover, we observe that LLMs can often display biases when presented with contextual information about a causal graph, potentially stemming from their parametric memory.

arxiv情報

著者 Ivaxi Sheth,Bahare Fatemi,Mario Fritz
発行日 2025-02-18 17:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CausalGraph2LLM: Evaluating LLMs for Causal Queries はコメントを受け付けていません

KAPPA: A Generic Patent Analysis Framework with Keyphrase-Based Portraits

要約

特許分析は、特許の肖像画と呼ばれる簡潔で解釈可能な文書表現に大きく依存しています。
存在と不在の両方のキキフラゼは、その簡潔さ、代表性、明確さのために、特許の肖像画の理想的な候補です。
このペーパーでは、キーフレーズベースの特許ポートレートを構築し、特許分析を強化するために設計された統合フレームワークであるKappaを紹介します。
カッパは、特許肖像画の構築とポートレートベースの分析の2つのフェーズで動作します。
効果的なポートレート構造を確保するために、特許のマルチレベルの構造特性を活用するために、事前に訓練された言語モデルをプロンプトベースの階層デコード戦略と統合するセマンティックキャリブレーションキーフレーズ生成パラダイムを提案します。
ポートレートベースの分析のために、キーフレーズベースの特許ポートレートを採用して、効率的かつ正確な特許分析を可能にする包括的なフレームワークを開発します。
キーフレーズ生成のベンチマークデータセットに関する広範な実験では、提案されたモデルは、最先端のベースラインと比較して大幅な改善を達成します。
現実世界の特許アプリケーションで実施されたさらなる実験は、キーフレーズベースのポートレートがドメイン固有の知識を効果的にキャプチャし、特許分析タスクのセマンティック表現を充実させることを示しています。

要約(オリジナル)

Patent analysis highly relies on concise and interpretable document representations, referred to as patent portraits. Keyphrases, both present and absent, are ideal candidates for patent portraits due to their brevity, representativeness, and clarity. In this paper, we introduce KAPPA, an integrated framework designed to construct keyphrase-based patent portraits and enhance patent analysis. KAPPA operates in two phases: patent portrait construction and portrait-based analysis. To ensure effective portrait construction, we propose a semantic-calibrated keyphrase generation paradigm that integrates pre-trained language models with a prompt-based hierarchical decoding strategy to leverage the multi-level structural characteristics of patents. For portrait-based analysis, we develop a comprehensive framework that employs keyphrase-based patent portraits to enable efficient and accurate patent analysis. Extensive experiments on benchmark datasets of keyphrase generation, the proposed model achieves significant improvements compared to state-of-the-art baselines. Further experiments conducted on real-world patent applications demonstrate that our keyphrase-based portraits effectively capture domain-specific knowledge and enrich semantic representation for patent analysis tasks.

arxiv情報

著者 Xin Xia,Yujin Wang,Jun Zhou,Guisheng Zhong,Linning Cai,Chen Zhang
発行日 2025-02-18 17:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KAPPA: A Generic Patent Analysis Framework with Keyphrase-Based Portraits はコメントを受け付けていません

Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom

要約

ほとんどの偽のニュース検出方法は、ニューラルネットワークに基づいた潜在的な特徴表現を学習します。これにより、正当化をせずにニュースを分類するためのブラックボックスになります。
既存の説明可能なシステムは、調査ジャーナリズムから真実性の正当性を生み出します。これは、遅れて効率が低下することに苦しんでいます。
最近の研究では、正当化は群衆の知恵で表明された多数派の意見に相当していると単純に仮定しています。
ただし、群衆の知恵は無修正であるため、意見には通常、不正確または偏った情報が含まれています。
このペーパーでは、多様で混雑した、さらには競合する物語の海から偽のニュースを検出するために、私たちは斬新な防衛に基づいた説明可能な偽のニュース検出フレームワークを提案します。
具体的には、最初に証拠抽出モジュールを提案して、群衆の知恵を2つの競合するパーティーに分割し、それぞれ顕著な証拠を検出します。
証拠から簡潔な洞察を得るために、2つの可能性のある意味に向けて理由を推測することにより正当化を生成するために大きな言語モデルを利用するプロンプトベースのモジュールを設計します。
最後に、これらの正当化の間で防御をモデル化することで真実性を決定するために、防御ベースの推論モジュールを提案します。
2つの現実世界のベンチマークで実施された広範な実験は、提案された方法が偽のニュース検出に関して最先端のベースラインよりも優れており、高品質の正当化を提供することを示しています。

要約(オリジナル)

Most fake news detection methods learn latent feature representations based on neural networks, which makes them black boxes to classify a piece of news without giving any justification. Existing explainable systems generate veracity justifications from investigative journalism, which suffer from debunking delayed and low efficiency. Recent studies simply assume that the justification is equivalent to the majority opinions expressed in the wisdom of crowds. However, the opinions typically contain some inaccurate or biased information since the wisdom of crowds is uncensored. To detect fake news from a sea of diverse, crowded and even competing narratives, in this paper, we propose a novel defense-based explainable fake news detection framework. Specifically, we first propose an evidence extraction module to split the wisdom of crowds into two competing parties and respectively detect salient evidences. To gain concise insights from evidences, we then design a prompt-based module that utilizes a large language model to generate justifications by inferring reasons towards two possible veracities. Finally, we propose a defense-based inference module to determine veracity via modeling the defense among these justifications. Extensive experiments conducted on two real-world benchmarks demonstrate that our proposed method outperforms state-of-the-art baselines in terms of fake news detection and provides high-quality justifications.

arxiv情報

著者 Bo Wang,Jing Ma,Hongzhan Lin,Zhiwei Yang,Ruichao Yang,Yuan Tian,Yi Chang
発行日 2025-02-18 17:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom はコメントを受け付けていません

Media Slant is Contagious

要約

このペーパーでは、メディアスラントの拡散を調べます。
1995年から2008年にかけて、米国の地元の新聞のパルチザンスラントに対するFox News Channel(FNC)の影響を文書化しています。
私たちは、議会での共和党や民主党のスピーチにニュース記事のテキストを拡大することにより、地元の新聞の政治的傾斜を測定します。
視聴者の楽器としてチャネルポジショニングを使用して、FNCの視聴者が高いほど、地元の新聞がより多くの右翼の傾斜を採用する原因となることがわかります。
この効果は、FNCの導入からわずか数年後に徐々に現れ、投票行動に対するチャネルの影響力の高まりを反映しています。
新聞のスラントの変化の主な要因は、地元の政治的好みの変化のようです。

要約(オリジナル)

This paper examines the diffusion of media slant. We document the influence of Fox News Channel (FNC) on the partisan slant of local newspapers in the U.S. over the years 1995-2008. We measure the political slant of local newspapers by scaling the news article texts to Republicans’ and Democrats’ speeches in Congress. Using channel positioning as an instrument for viewership, we find that higher FNC viewership causes local newspapers to adopt more right-wing slant. The effect emerges gradually, only several years after FNC’s introduction, mirroring the channel’s growing influence on voting behavior. A main driver of the shift in newspaper slant appears to be a change in local political preferences.

arxiv情報

著者 Philine Widmer,Clémentine Abed Meraim,Sergio Galletta,Elliott Ash
発行日 2025-02-18 17:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, econ.GN, q-fin.EC | Media Slant is Contagious はコメントを受け付けていません