CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization

要約

大規模な Web マイニングされたデータセットの利用可能性と多言語言語モデルの進歩により、近年、言語間要約 (CLS) への関心が高まっています。
ただし、自然に発生する CLS リソースの希少性を考えると、大部分のデータセットは翻訳に頼らざるを得ず、過度にリテラルなアーティファクトが含まれる可能性があります。
これにより、コードスイッチングのインスタンスを含む、有機的な辞書をキャプチャする自然に発生する CLS ペアを観察する能力が制限されます。
メッセージの途中での言語間のこの変更は、多言語設定では一般的な現象ですが、データが不足しているため、多言語環境ではほとんど見過ごされてきました。
このギャップに対処するために、クロスリンガル コード交換技術ニュースの要約のデータセットである CroCoSum を導入します。
24,000 以上の英語のソース記事と 18,000 の人間がキュレーションした中国のニュース要約で構成されており、要約の 92% 以上にコード交換されたフレーズが含まれています。
参考までに、パイプライン、エンド ツー エンド、およびゼロ ショット メソッドを含む既存のアプローチのパフォーマンスを評価します。
事前トレーニングのステップとして既存のリソースを活用しても、CroCoSum のパフォーマンスは向上しないことを示しており、既存のリソースの一般化可能性が限られていることを示しています。
最後に、定性的なエラー分析を通じて、コード スイッチ生成に関するクロスリンガル サマライザーを評価する際の課題について説明します。
私たちのコレクションとコードは、https://github.com/RosenZhang/CroCoSum からアクセスできます。

要約(オリジナル)

Cross-lingual summarization (CLS) has attracted increasing interest in recent years due to the availability of large-scale web-mined datasets and the advancements of multilingual language models. However, given the rareness of naturally occurring CLS resources, the majority of datasets are forced to rely on translation which can contain overly literal artifacts. This restricts our ability to observe naturally occurring CLS pairs that capture organic diction, including instances of code-switching. This alteration between languages in mid-message is a common phenomenon in multilingual settings yet has been largely overlooked in cross-lingual contexts due to data scarcity. To address this gap, we introduce CroCoSum, a dataset of cross-lingual code-switched summarization of technology news. It consists of over 24,000 English source articles and 18,000 human-curated Chinese news summaries, with more than 92% of the summaries containing code-switched phrases. For reference, we evaluate the performance of existing approaches including pipeline, end-to-end, and zero-shot methods. We show that leveraging existing resources as a pretraining step does not improve performance on CroCoSum, indicating the limited generalizability of existing resources. Finally, we discuss the challenges of evaluating cross-lingual summarizers on code-switched generation through qualitative error analyses. Our collection and code can be accessed at https://github.com/RosenZhang/CroCoSum.

arxiv情報

著者 Ruochen Zhang,Carsten Eickhoff
発行日 2023-03-07 17:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク