In Generative AI we Trust: Can Chatbots Effectively Verify Political Information?

要約

この記事では、最近 Microsoft Copilot にブランド変更された 2 つの大規模言語モデル (LLM) ベースのチャットボット、ChatGPT と Bing Chat の政治情報の真実性を検出する機能の比較分析を示します。
AI 監査手法を使用して、新型コロナウイルス感染症、ロシアのウクライナ侵略、ホロコースト、気候変動、LGBTQ+ 関連の議論の 5 つのトピックについて、チャットボットが真実、虚偽、および境界線の発言をどのように評価するかを調査しています。
英語、ロシア語、ウクライナ語のプロンプトを使用して、高リソース言語と低リソース言語でのチャットボットのパフォーマンスを比較します。
さらに、定義指向のプロンプトを使用して、偽情報、偽情報、陰謀論といった政治的コミュニケーションの概念に従って発言を評価するチャットボットの能力を調査します。
また、特定の主張をさまざまな政治的および社会的主体に帰することによってモデル化した情報源バイアスによって、そのような評価がどのように影響を受けるかを体系的にテストします。
結果は、ベースラインの真実性評価タスクに対する ChatGPT の高いパフォーマンスを示しており、ケースの 72% が事前トレーニングなしで言語間で平均して正しく評価されました。
Bing Chat のパフォーマンスはさらに悪く、精度は 67% でした。
チャットボットが高リソース言語と低リソース言語でプロンプトを評価する方法と、ChatGPT が Bing Chat よりも微妙な出力を提供することで、その評価を政治的コミュニケーションの概念にどのように適応させるかに大きな差異があることが観察されています。
最後に、一部の真実性検出関連タスクでは、チャットボットのパフォーマンスが発言のトピックや発言の原因となる情報源に応じて異なることがわかりました。
これらの調査結果は、オンライン環境でさまざまな形の虚偽の情報に対処する際の LLM ベースのチャットボットの可能性を強調していますが、プロンプトやトピックの言語などの特定の要因により、そのような可能性がどのように実現されるかという点で大きなばらつきがあることも示しています。

要約(オリジナル)

This article presents a comparative analysis of the ability of two large language model (LLM)-based chatbots, ChatGPT and Bing Chat, recently rebranded to Microsoft Copilot, to detect veracity of political information. We use AI auditing methodology to investigate how chatbots evaluate true, false, and borderline statements on five topics: COVID-19, Russian aggression against Ukraine, the Holocaust, climate change, and LGBTQ+ related debates. We compare how the chatbots perform in high- and low-resource languages by using prompts in English, Russian, and Ukrainian. Furthermore, we explore the ability of chatbots to evaluate statements according to political communication concepts of disinformation, misinformation, and conspiracy theory, using definition-oriented prompts. We also systematically test how such evaluations are influenced by source bias which we model by attributing specific claims to various political and social actors. The results show high performance of ChatGPT for the baseline veracity evaluation task, with 72 percent of the cases evaluated correctly on average across languages without pre-training. Bing Chat performed worse with a 67 percent accuracy. We observe significant disparities in how chatbots evaluate prompts in high- and low-resource languages and how they adapt their evaluations to political communication concepts with ChatGPT providing more nuanced outputs than Bing Chat. Finally, we find that for some veracity detection-related tasks, the performance of chatbots varied depending on the topic of the statement or the source to which it is attributed. These findings highlight the potential of LLM-based chatbots in tackling different forms of false information in online environments, but also points to the substantial variation in terms of how such potential is realized due to specific factors, such as language of the prompt or the topic.

arxiv情報

著者 Elizaveta Kuznetsova,Mykola Makhortykh,Victoria Vziatysheva,Martha Stolze,Ani Baghumyan,Aleksandra Urman
発行日 2023-12-20 15:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク