要約
言語モデルの調整に関する研究では、多くの場合、モデルが有益で無害であるだけでなく、真実で偏りのないものであることを確認しようとします。
ただし、これらの目標を同時に最適化すると、1 つの側面を改善することが他の側面にどのような影響を与えるかがわかりにくくなる可能性があります。
この研究では、言語モデルの整合性と政治学の両方に不可欠な 2 つの概念、\textit{真実性} と \textit{政治的偏見} の関係を分析することに焦点を当てます。
私たちは、さまざまな人気のある真実性データセットに基づいて報酬モデルをトレーニングし、その後、その政治的偏見を評価します。
私たちの調査結果は、これらのデータセットの真実性を求めて報酬モデルを最適化すると、左寄りの政治的バイアスが生じる傾向があることを明らかにしています。
また、既存のオープンソースの報酬モデル (つまり、標準的な人間の嗜好データセットでトレーニングされたもの) がすでに同様の偏りを示しており、モデルが大きいほど偏りが大きくなることもわかりました。
これらの結果は、真実性を表すために使用されるデータセットと、真実と政治の関係についてどのような言語モデルが捉えているかの両方について重要な疑問を引き起こします。
要約(オリジナル)
Language model alignment research often attempts to ensure that models are not only helpful and harmless, but also truthful and unbiased. However, optimizing these objectives simultaneously can obscure how improving one aspect might impact the others. In this work, we focus on analyzing the relationship between two concepts essential in both language model alignment and political science: \textit{truthfulness} and \textit{political bias}. We train reward models on various popular truthfulness datasets and subsequently evaluate their political bias. Our findings reveal that optimizing reward models for truthfulness on these datasets tends to result in a left-leaning political bias. We also find that existing open-source reward models (i.e. those trained on standard human preference datasets) already show a similar bias and that the bias is larger for larger models. These results raise important questions about both the datasets used to represent truthfulness and what language models capture about the relationship between truth and politics.
arxiv情報
著者 | Suyash Fulay,William Brannon,Shrestha Mohanty,Cassandra Overney,Elinor Poole-Dayan,Deb Roy,Jad Kabbara |
発行日 | 2024-09-09 02:28:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google