要約
この論文では、ニュース編集におけるバイアスの軽減に取り組み、このタスクにおける会話型大規模言語モデルの有効性を評価します。
私たちは、ニュース編集者の視点に合わせた評価チェックリストを設計し、メディアバイアスの公的に利用可能なデータセットのサブセットを使用して 3 つの一般的な会話モデルから生成されたテキストを取得し、設計されたチェックリストに従ってテキストを評価しました。
さらに、バイアスを除去したモデル出力の品質をチェックするための評価器としてモデルを検査しました。
私たちの調査結果は、どの LLM もバイアス除去において完璧ではないことを示しています。
特に、ChatGPT などの一部のモデルでは、作成者のスタイルに影響を与え、誤った情報を生み出す可能性のある不必要な変更が導入されています。
最後に、バイアスを除去した出力の品質を評価する際、モデルは領域の専門家ほど熟練したパフォーマンスを発揮しないことを示します。
要約(オリジナル)
This paper addresses debiasing in news editing and evaluates the effectiveness of conversational Large Language Models in this task. We designed an evaluation checklist tailored to news editors’ perspectives, obtained generated texts from three popular conversational models using a subset of a publicly available dataset in media bias, and evaluated the texts according to the designed checklist. Furthermore, we examined the models as evaluator for checking the quality of debiased model outputs. Our findings indicate that none of the LLMs are perfect in debiasing. Notably, some models, including ChatGPT, introduced unnecessary changes that may impact the author’s style and create misinformation. Lastly, we show that the models do not perform as proficiently as domain experts in evaluating the quality of debiased outputs.
arxiv情報
著者 | Ipek Baris Schlicht,Defne Altiok,Maryanne Taouk,Lucie Flek |
発行日 | 2024-04-09 17:42:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google