LaMSUM: Amplifying Voices Against Harassment through LLM Guided Extractive Summarization of User Incident Reports

要約

インドのセーフシティのような市民報告プラットフォームは、公共および当局がセクシャルハラスメント事件について情報を提供するのを支援します。
ただし、これらのプラットフォームで共有されている大量のデータにより、個々のケースが挑戦的に見直されます。
したがって、さまざまなインドのコード混合言語を処理および理解できる要約アルゴリズムが不可欠です。
近年、大規模な言語モデル(LLM)は、要約を含むNLPタスクで例外的なパフォーマンスを示しています。
LLMは本質的に元のテキストを言い換えることで抽象的な要約を生成しますが、抽出概要の生成 – 元のテキストから特定のサブセットを選択する – は、LLMSからほとんど未開拓のままです。
さらに、LLMはコンテキストウィンドウサイズが限られており、一度に処理できるデータの量を制限します。
LLMSを使用して、安全な都市ポストの大規模なコレクションの抽出概要を生成するように設計された新しいマルチレベルフレームワークであるLamsumを導入することにより、これらの課題に取り組みます。
Lamsumは、要約をさまざまな投票方法と統合して、堅牢な要約を達成します。
3つの一般的なLLMS(LLAMA、Mistral、およびGPT-4O)を使用した広範な評価は、Lamsumが安全な都市ポストの最先端の抽出要約方法よりも優れていることを示しています。
全体として、この作業は、LLMSを通じて抽出的な要約を達成する最初の試みの1つを表しており、包括的な概要を提供し、不当な嫌がらせのインシデントを最小限に抑えるための効果的なポリシーを開発できるようにすることにより、利害関係者をサポートする可能性があります。

要約(オリジナル)

Citizen reporting platforms like Safe City in India help the public and authorities stay informed about sexual harassment incidents. However, the high volume of data shared on these platforms makes reviewing each individual case challenging. Therefore, a summarization algorithm capable of processing and understanding various Indian code-mixed languages is essential. In recent years, Large Language Models (LLMs) have shown exceptional performance in NLP tasks, including summarization. LLMs inherently produce abstractive summaries by paraphrasing the original text, while the generation of extractive summaries – selecting specific subsets from the original text – through LLMs remains largely unexplored. Moreover, LLMs have a limited context window size, restricting the amount of data that can be processed at once. We tackle these challenge by introducing LaMSUM, a novel multi-level framework designed to generate extractive summaries for large collections of Safe City posts using LLMs. LaMSUM integrates summarization with different voting methods to achieve robust summaries. Extensive evaluation using three popular LLMs (Llama, Mistral and GPT-4o) demonstrates that LaMSUM outperforms state-of-the-art extractive summarization methods for Safe City posts. Overall, this work represents one of the first attempts to achieve extractive summarization through LLMs, and is likely to support stakeholders by offering a comprehensive overview and enabling them to develop effective policies to minimize incidents of unwarranted harassment.

arxiv情報

著者 Garima Chhikara,Anurag Sharma,V. Gurucharan,Kripabandhu Ghosh,Abhijnan Chakraborty
発行日 2025-01-24 16:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク