LLMs left, right, and center: Assessing GPT’s capabilities to label political bias from web domains

要約

この研究では、最先端の大規模言語モデルである OpenAI の GPT-4 が、ニュース ソースの政治的偏向を URL のみに基づいて正確に分類できるかどうかを調査します。
政治的ラベルの主観的な性質を考慮して、ニュースソースの多様性を分析する研究では、Ad Fontes Media、AllSides、Media Bias/Fact Check (MBFC) などの第三者によるバイアス評価がよく使用されます。
この研究は、GPT-4 がこれらの人間の評価を 7 段階のスケール (「極左」から「極右」) で再現できるかどうかを判断することを目的としています。
この分析では、GPT-4 の分類と MBFC の分類を比較し、Open PageRank スコアを使用して Web サイトの人気を制御します。
調査結果では、GPT-4 の評価と MBFC の評価の間に高い相関関係 ($\text{Spearman’s } \rho = .89$、$n = 5,877$、$p < 0.001$) が明らかになり、モデルの潜在的な信頼性が示されています。 ただし、GPT-4 は、データセットの約 $\frac{2}{3}$、特に人気が低く偏りの少ないソースの分類を控えていました。 この研究では、MBFC と比較して GPT-4 の分類がわずかに左に偏っていることも特定しました。 この分析は、GPT-4 はニュース Web サイトの政治的偏見を分類するためのスケーラブルで費用対効果の高いツールとなり得るが、その使用はバイアスを軽減するために人間の判断を補完する必要があることを示唆しています。 さまざまな設定、言語、追加のデータセットにわたるモデルのパフォーマンスを調べるために、さらなる調査を行うことをお勧めします。

要約(オリジナル)

This research investigates whether OpenAI’s GPT-4, a state-of-the-art large language model, can accurately classify the political bias of news sources based solely on their URLs. Given the subjective nature of political labels, third-party bias ratings like those from Ad Fontes Media, AllSides, and Media Bias/Fact Check (MBFC) are often used in research to analyze news source diversity. This study aims to determine if GPT-4 can replicate these human ratings on a seven-degree scale (‘far-left’ to ‘far-right’). The analysis compares GPT-4’s classifications against MBFC’s, and controls for website popularity using Open PageRank scores. Findings reveal a high correlation ($\text{Spearman’s } \rho = .89$, $n = 5,877$, $p < 0.001$) between GPT-4's and MBFC's ratings, indicating the model's potential reliability. However, GPT-4 abstained from classifying approximately $\frac{2}{3}$ of the dataset, particularly less popular and less biased sources. The study also identifies a slight leftward skew in GPT-4's classifications compared to MBFC's. The analysis suggests that while GPT-4 can be a scalable, cost-effective tool for political bias classification of news websites, but its use should complement human judgment to mitigate biases. Further research is recommended to explore the model's performance across different settings, languages, and additional datasets.

arxiv情報

著者 Raphael Hernandes
発行日 2024-07-19 14:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク