$μ$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge

要約

クロスリンガル要約は、別の言語の入力ドキュメントを基に、ある言語で要約を生成することで構成され、関連するコンテンツを他の言語の話者間で配布できるようになります。
この作業は、主に言語をまたがるデータセットの不足と、要約と翻訳の複合的な困難により困難を伴います。
この研究では、言語間の橋渡しとして中間計画ステップを使用する、言語間の要約へのアプローチである $\mu$PLAN を紹介します。
私たちは、概要の内容とそれを伝達する順序を把握する一連のエンティティとして計画を策定します。
重要なことに、私たちの計画は表面的な形式から抽象化されています。多言語知識ベースを使用して、エンティティを言語間での正規の指定に合わせて調整し、この言語間のブリッジと入力に基づいて条件付けされた概要を生成します。
XWikis データセット (4 つの言語ペアにわたる) に対する自動および人間による評価は、計画の目的が情報量と忠実性の点で最先端のパフォーマンスを達成していることを示しています。
さらに、$\mu$PLAN モデルは、計画コンポーネントのないベースラインと比較して、新しい言語間言語ペアへのゼロショット移行を改善します。

要約(オリジナル)

Cross-lingual summarization consists of generating a summary in one language given an input document in a different language, allowing for the dissemination of relevant content across speakers of other languages. The task is challenging mainly due to the paucity of cross-lingual datasets and the compounded difficulty of summarizing and translating. This work presents $\mu$PLAN, an approach to cross-lingual summarization that uses an intermediate planning step as a cross-lingual bridge. We formulate the plan as a sequence of entities capturing the summary’s content and the order in which it should be communicated. Importantly, our plans abstract from surface form: using a multilingual knowledge base, we align entities to their canonical designation across languages and generate the summary conditioned on this cross-lingual bridge and the input. Automatic and human evaluation on the XWikis dataset (across four language pairs) demonstrates that our planning objective achieves state-of-the-art performance in terms of informativeness and faithfulness. Moreover, $\mu$PLAN models improve the zero-shot transfer to new cross-lingual language pairs compared to baselines without a planning component.

arxiv情報

著者 Fantine Huot,Joshua Maynez,Chris Alberti,Reinald Kim Amplayo,Priyanka Agrawal,Constanza Fierro,Shashi Narayan,Mirella Lapata
発行日 2024-01-31 13:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク