要約
タイトル:「大規模言語モデルはニュースメディアの信頼度を評価できる」
要約:
– LLM(Large Language Models)は、自然言語処理の様々なタスクにおいて優れた性能を発揮する一方で、幻覚を起こしやすい。
– 最新のチャットボットは、Bingなど、インターネットから情報を収集して回答を構築することで、この問題を緩和しようとしている。
– この環境では、信頼できる情報源を区別する能力が、ユーザーに適切な精度コンテキストを提供するために重要である。
– この研究では、ChatGPTという有名なLLMが、ニュースメディアの信頼性を評価できるかどうかを評価する。
– 適切な指示が与えられた場合、ChatGPTは、非英語の言語や風刺的な情報源を含む様々なニュースメディアの評価を提供できる。
– 結果として、これらの評価は人間の専門家の評価と相関しており、LLMが事実チェックアプリケーションにおいて、信頼性評価の手段として使用される可能性があることを示唆している。
– 将来のLLMは、情報の正確性を向上させるために、人間の専門家の判断との整合性を強化する必要がある。
要約(オリジナル)
Although large language models (LLMs) have shown exceptional performance in various natural language processing tasks, they are prone to hallucinations. State-of-the-art chatbots, such as the new Bing, attempt to mitigate this issue by gathering information directly from the internet to ground their answers. In this setting, the capacity to distinguish trustworthy sources is critical for providing appropriate accuracy contexts to users. Here we assess whether ChatGPT, a prominent LLM, can evaluate the credibility of news outlets. With appropriate instructions, ChatGPT can provide ratings for a diverse set of news outlets, including those in non-English languages and satirical sources, along with contextual explanations. Our results show that these ratings correlate with those from human experts (Spearmam’s $\rho=0.54, p<0.001$). These findings suggest that LLMs could be an affordable reference for credibility ratings in fact-checking applications. Future LLMs should enhance their alignment with human expert judgments of source credibility to improve information accuracy.
arxiv情報
| 著者 | Kai-Cheng Yang,Filippo Menczer |
| 発行日 | 2023-04-01 05:04:06+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI