NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications

要約

この研究では、中国語ジャーナリズム執筆能力 (JWP) およびその安全遵守 (SA) における大規模言語モデル (LLM) の能力を評価するために開発された新しいベンチマーク フレームワークである NewsBench を紹介し、ジャーナリズム倫理と AI 利用に関連するリスクとの間のギャップに対処します。

NewsBench は、5 つの編集アプリケーション、7 つの側面 (4 つの詳細な側面を持つ安全性とジャーナリズムの執筆を含む) にわたる 1,267 のタスクで構成され、24 のニュース トピックのドメインにまたがり、人間の評価によって検証された 2 つの GPT-4 ベースの自動評価プロトコルを採用しています。
10 個の LLM を包括的に分析したところ、GPT-4 と ERNIE Bot がトップパフォーマンスであることが明らかになりましたが、クリエイティブな執筆作業におけるジャーナリスト倫理の順守が相対的に欠如していることが明らかになりました。
これらの調査結果は、AI が生成したジャーナリズム コンテンツにおける倫理ガイダンスの強化の必要性を強調しており、AI の機能をジャーナリズムの基準および安全性の考慮事項と整合させる上での一歩を示しています。

要約(オリジナル)

This study presents NewsBench, a novel benchmark framework developed to evaluate the capability of Large Language Models (LLMs) in Chinese Journalistic Writing Proficiency (JWP) and their Safety Adherence (SA), addressing the gap between journalistic ethics and the risks associated with AI utilization. Comprising 1,267 tasks across 5 editorial applications, 7 aspects (including safety and journalistic writing with 4 detailed facets), and spanning 24 news topics domains, NewsBench employs two GPT-4 based automatic evaluation protocols validated by human assessment. Our comprehensive analysis of 10 LLMs highlighted GPT-4 and ERNIE Bot as top performers, yet revealed a relative deficiency in journalistic ethic adherence during creative writing tasks. These findings underscore the need for enhanced ethical guidance in AI-generated journalistic content, marking a step forward in aligning AI capabilities with journalistic standards and safety considerations.

arxiv情報

著者 Miao Li,Ming-Bin Chen,Bo Tang,Shengbin Hou,Pengyu Wang,Haiying Deng,Zhiyu Li,Feiyu Xiong,Keming Mao,Peng Cheng,Yi Luo
発行日 2024-03-21 10:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク