要約
GPT4やLlamaなどのプロンプトベースの言語モデルは、エージェントのシミュレーション、情報の検索、コンテンツ分析など、さまざまなユースケースに使用されています。
これらすべてのアプリケーションなど、これらのモデルの政治的偏見はパフォーマンスに影響を与える可能性があります。
いくつかの研究者は、政治コンパステスト(PCT)などの調査に基づいて評価スイートを使用して言語モデルの政治的偏見を研究しようとしました。
ただし、正確なプロンプト技術にはいくつかの変動があり、発見の発見につながり、ほとんどの研究はモデル応答を抽出するための制約された回答設定に依存しています。
さらに、政治コンパステストは科学的に有効な調査手段ではありません。
この作業では、政治学理論によって通知された政治的偏見を提供し、調査デザインの原則に基づいて、さまざまな入力プロンプトをテストしながら、迅速な感受性を考慮しています。
次に、11の異なるオープンモデルと商業モデルを促し、命令チューニングと非導入変動モデルを区別し、88,110の回答から政治的スタンスを自動的に分類します。
このデータセットを活用すると、さまざまな迅速な変動にわたって政治的バイアスプロファイルを計算し、PCTはGPT3.5などの特定のモデルでバイアスを誇張していますが、政治的バイアスの測定は不安定ですが、一般に指導チューニングモデルの方が左寄りです。
要約(オリジナル)
Prompt-based language models like GPT4 and LLaMa have been used for a wide variety of use cases such as simulating agents, searching for information, or for content analysis. For all of these applications and others, political biases in these models can affect their performance. Several researchers have attempted to study political bias in language models using evaluation suites based on surveys, such as the Political Compass Test (PCT), often finding a particular leaning favored by these models. However, there is some variation in the exact prompting techniques, leading to diverging findings and most research relies on constrained-answer settings to extract model responses. Moreover, the Political Compass Test is not a scientifically valid survey instrument. In this work, we contribute a political bias measured informed by political science theory, building on survey design principles to test a wide variety of input prompts, while taking into account prompt sensitivity. We then prompt 11 different open and commercial models, differentiating between instruction-tuned and non-instruction-tuned models, and automatically classify their political stances from 88,110 responses. Leveraging this dataset, we compute political bias profiles across different prompt variations and find that while PCT exaggerates bias in certain models like GPT3.5, measures of political bias are often unstable, but generally more left-leaning for instruction-tuned models.
arxiv情報
著者 | Mats Faulborn,Indira Sen,Max Pellert,Andreas Spitz,David Garcia |
発行日 | 2025-03-20 13:51:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google