Automatic Classification of News Subjects in Broadcast News: Application to a Gender Bias Representation Analysis

要約

この論文では、フランスのテレビやラジオのニュースで取り上げられるトピックにおける性別分布の偏りを明らかにするために設計された計算フレームワークを紹介します。
2023 年にフランスの 21 チャンネルで放送された 11.7,000 時間のデータセットを転写します。
大規模言語モデル (LLM) は、これらの書き起こしに関するトピック分類を取得するために、少数ショット会話モードで使用されます。
生成された LLM アノテーションを使用して、計算コストを削減するために、特化された小規模な分類モデルの微調整を検討します。
これらのモデルのパフォーマンスを評価するために、804 の対話のデータセットを構築し、注釈を付けます。
このデータセットは研究目的で無料で利用できます。
スポーツ、政治、紛争などの分野で女性が著しく過小評価されていることを示しています。
逆に、天気、コマーシャル、健康などのテーマでは、女性の発言時間がすべてのテーマ全体の平均よりも長くなります。
また、民間サービス チャネルと公共サービス チャネルの間の表現の違いも観察します。

要約(オリジナル)

This paper introduces a computational framework designed to delineate gender distribution biases in topics covered by French TV and radio news. We transcribe a dataset of 11.7k hours, broadcasted in 2023 on 21 French channels. A Large Language Model (LLM) is used in few-shot conversation mode to obtain a topic classification on those transcriptions. Using the generated LLM annotations, we explore the finetuning of a specialized smaller classification model, to reduce the computational cost. To evaluate the performances of these models, we construct and annotate a dataset of 804 dialogues. This dataset is made available free of charge for research purposes. We show that women are notably underrepresented in subjects such as sports, politics and conflicts. Conversely, on topics such as weather, commercials and health, women have more speaking time than their overall average across all subjects. We also observe representations differences between private and public service channels.

arxiv情報

著者 Valentin Pelloin,Lena Dodson,Émile Chapuis,Nicolas Hervé,David Doukhan
発行日 2024-07-19 10:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク