要約
英国およびEUのレジスターによって承認された基本的な健康声明を使用し、中絶、Covid-19、政府のアドバイザリーからソーシャルメディアや政府のアドバイザリーから政治的なスペクトルのニュースに至るまで、9,100人のジャーナリストが介したジャーナリストによる公的健康アサーション、および政治的なアドバイザリーからの政治的なアドバイシックから、21の主要な大規模な言語からの大規模な言語を主要な大規模な言語に至るまでのベンチマークである大規模な言語を見つけることができます。
トピックとソースによって非ヨーロッパの言語と変動し、グローバルな健康コミュニケーションにAIを展開する前に、包括的な多言語のドメイン対応検証の緊急性を強調します。
要約(オリジナル)
Using basic health statements authorized by UK and EU registers and 9,100 journalist-vetted public-health assertions on topics such as abortion, COVID-19 and politics from sources ranging from peer-reviewed journals and government advisories to social media and news across the political spectrum, we benchmark six leading large language models from in 21 languages, finding that, despite high accuracy on English-centric textbook claims, performance falls in multiple non-European languages and fluctuates by topic and source, highlighting the urgency of comprehensive multilingual, domain-aware validation before deploying AI in global health communication.
arxiv情報
著者 | Prashant Garg,Thiemo Fetzer |
発行日 | 2025-04-25 12:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google