Automatic Data Retrieval for Cross Lingual Summarization

要約

異言語要約には、ある言語で書かれたテキストを別の言語に要約することが含まれます。
英語から他のヨーロッパ言語への多言語要約に取り組んでいる一連の研究があります。
この作業では、英語からヒンディー語への言語横断的な要約を行うことを目的としています。
私たちは、ニュース価値のある出来事の報道をテキスト形式とビデオ形式で組み合わせることが、言語を超えた要約のためのデータ収集に役立つことが判明することを提案します。
データを分析し、文書と概要のペアとして機能するビデオの説明と記事を一致させる方法を提案します。
また、要約の正確性を確保するために、妥当なしきい値を超えるフィルタリング方法についても概説します。
さらに、28,583 のモノラルおよびクロスリンガルの記事と概要のペア https://github.com/tingc9/Cross-Sum-News-Aligned を利用可能です。
また、収集したデータに基づいて複数のベースラインを構築および分析し、エラー分析を報告します。

要約(オリジナル)

Cross-lingual summarization involves the summarization of text written in one language to a different one. There is a body of research addressing cross-lingual summarization from English to other European languages. In this work, we aim to perform cross-lingual summarization from English to Hindi. We propose pairing up the coverage of newsworthy events in textual and video format can prove to be helpful for data acquisition for cross lingual summarization. We analyze the data and propose methods to match articles to video descriptions that serve as document and summary pairs. We also outline filtering methods over reasonable thresholds to ensure the correctness of the summaries. Further, we make available 28,583 mono and cross-lingual article-summary pairs https://github.com/tingc9/Cross-Sum-News-Aligned. We also build and analyze multiple baselines on the collected data and report error analysis.

arxiv情報

著者 Nikhilesh Bhatnagar,Ashok Urlana,Vandan Mujadia,Pruthwik Mishra,Dipti Misra Sharma
発行日 2023-12-22 09:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク