Fair Summarization: Bridging Quality and Diversity in Extractive Summaries

要約

ユーザー生成コンテンツのマルチドキュメントの要約の公平性は、自然言語処理(NLP)における重要な課題のままです。
既存の要約方法は、多くの場合、異なる社会グループ間で公平な表現を確保できず、偏った出力につながります。
この論文では、公正な抽出要約のための2つの新しい方法を紹介します。FairExtract、クラスタリングベースのアプローチ、およびGPT-3.5ターボを公平性の制約で活用するFairGPTです。
これらの方法を、白色、ヒスパニック、アフリカ系アメリカ人の方言ツイートのdivsumm要約データセットを使用して、関連するベースラインと比較します。
Supert、Blanc、Summaqa、Bartscore、Unievalなどの包括的な要約品質メトリックを使用して得られた結果、および公平性メトリックFは、競争力のある要約の品質を維持しながら、フェアエクスプトラルとフェアグプが優れた公平性を達成することを示しています。
さらに、品質と公平性を単一の評価フレームワークに統合する複合メトリック(例:Supert+F、Blanc+F)を導入し、これらの目標間のトレードオフをより微妙な理解を提供します。
私たちのコードはオンラインで入手できます。

要約(オリジナル)

Fairness in multi-document summarization of user-generated content remains a critical challenge in natural language processing (NLP). Existing summarization methods often fail to ensure equitable representation across different social groups, leading to biased outputs. In this paper, we introduce two novel methods for fair extractive summarization: FairExtract, a clustering-based approach, and FairGPT, which leverages GPT-3.5-turbo with fairness constraints. We evaluate these methods using Divsumm summarization dataset of White-aligned, Hispanic, and African-American dialect tweets and compare them against relevant baselines. The results obtained using a comprehensive set of summarization quality metrics such as SUPERT, BLANC, SummaQA, BARTScore, and UniEval, as well as a fairness metric F, demonstrate that FairExtract and FairGPT achieve superior fairness while maintaining competitive summarization quality. Additionally, we introduce composite metrics (e.g., SUPERT+F, BLANC+F) that integrate quality and fairness into a single evaluation framework, offering a more nuanced understanding of the trade-offs between these objectives. Our code is available online.

arxiv情報

著者 Sina Bagheri Nezhad,Sayan Bandyapadhyay,Ameeta Agrawal
発行日 2025-03-11 16:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク