要約
大規模な緊急事態の自動要約は、災害管理において重要な役割を果たします。
CrisisFACTS の第 2 版は、Twitter、Reddit、Facebook、Webnews などの Web ソースに焦点を当てた、マルチストリームの事実調査に基づいて災害の要約を進めることを目的としています。
ここで参加者は、いくつかの災害関連の出来事から重要な事実を抽出し、最終的には要約として機能するシステムを開発するよう求められます。
この文書では、この困難な課題に取り組むための私たちの方法について説明します。
私たちは以前の研究に従い、検索、再ランキング、そして恥ずかしいほど単純な指示に従う要約を組み合わせて使用することを提案します。
2 段階の取得パイプラインは BM25 と MonoT5 に依存していますが、サマライザー モジュールはオープンソースの大規模言語モデル (LLM) LLaMA-13b に基づいています。
要約として、質問応答 (QA) をベースとしたプロンプト アプローチを調査し、クエリに関連する事実を抽出するのに役立つ証拠を見つけます。
自動メトリクスと人間による評価は優れた結果を示していますが、オープンソース システムと独自システムの間のギャップも浮き彫りにしています。
要約(オリジナル)
Automatic summarization of mass-emergency events plays a critical role in disaster management. The second edition of CrisisFACTS aims to advance disaster summarization based on multi-stream fact-finding with a focus on web sources such as Twitter, Reddit, Facebook, and Webnews. Here, participants are asked to develop systems that can extract key facts from several disaster-related events, which ultimately serve as a summary. This paper describes our method to tackle this challenging task. We follow previous work and propose to use a combination of retrieval, reranking, and an embarrassingly simple instruction-following summarization. The two-stage retrieval pipeline relies on BM25 and MonoT5, while the summarizer module is based on the open-source Large Language Model (LLM) LLaMA-13b. For summarization, we explore a Question Answering (QA)-motivated prompting approach and find the evidence useful for extracting query-relevant facts. The automatic metrics and human evaluation show strong results but also highlight the gap between open-source and proprietary systems.
arxiv情報
著者 | Philipp Seeberger,Korbinian Riedhammer |
発行日 | 2024-02-14 08:22:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google