要約
【タイトル】
SimCSum:クロスリンガル科学ジャーナリズムのための簡素化とクロスリンガル要約の共同学習
【要約】
– クロスリンガル科学ジャーナリズムは、専門家でない人々を対象に、元の言語とは異なる科学記事の人気のある科学ニュースを生成します。
– したがって、クロスリンガルの人気のある要約には、入力ドキュメントの重要な内容が含まれており、内容はターゲットオーディエンス向けにローカル言語で理解可能かつ意味のあるものである必要があります。
– SimCSumは、2つの高レベルNLPタスクである簡素化とクロスリンガル要約の共同トレーニングによって、クロスリンガル要約生成のこれらの側面を改善します。
– 前者のタスクは、言語的複雑さを減らし、後者はクロスリンガル抽象要約に焦点を当てています。
– SimCSumは、共有エンコーダーと2つの並列デコーダーで構成される新しいマルチタスクアーキテクチャであり、簡素化とクロスリンガル要約を共同で学習します。
– 評価指標と人間の評価を使用して、SimCSumの性能を他の複数のベースラインと比較して実証的に調査しました。
– オーバーラル、SimCSumは、2つの非合成のクロスリンガル科学データセットで最新技術に対して統計的に有意な改善を示します。
– さらに、生成された要約の言語的特性とエラー分析を詳細に調査しています。
要約(オリジナル)
Cross-lingual science journalism generates popular science stories of scientific articles different from the source language for a non-expert audience. Hence, a cross-lingual popular summary must contain the salient content of the input document, and the content should be coherent, comprehensible, and in a local language for the targeted audience. We improve these aspects of cross-lingual summary generation by joint training of two high-level NLP tasks, simplification and cross-lingual summarization. The former task reduces linguistic complexity, and the latter focuses on cross-lingual abstractive summarization. We propose a novel multi-task architecture – SimCSum consisting of one shared encoder and two parallel decoders jointly learning simplification and cross-lingual summarization. We empirically investigate the performance of SimCSum by comparing it with several strong baselines over several evaluation metrics and by human evaluation. Overall, SimCSum demonstrates statistically significant improvements over the state-of-the-art on two non-synthetic cross-lingual scientific datasets. Furthermore, we conduct an in-depth investigation into the linguistic properties of generated summaries and an error analysis.
arxiv情報
著者 | Mehwish Fatima,Tim Kolber,Katja Markert,Michael Strube |
発行日 | 2023-04-04 08:24:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI