Zero-Shot Cross-Lingual Summarization via Large Language Models

要約

ソース言語の文書が与えられた場合、クロスリンガル要約(CLS)は異なるターゲット言語の要約を生成することを目的とする。近年、GPT-3.5、ChatGPT、GPT-4などの大規模言語モデル(LLM)が登場し、計算言語学コミュニティから大きな注目を集めている。しかし、LLMのCLS上での性能はまだ知られていない。本報告では、様々なプロンプトを用いて、異なるパラダイム(エンド・ツー・エンドとパイプライン)からLLMにゼロショットCLSを実行させ、生成された要約に対する予備評価を行う。ChatGPTとGPT-4は元々、詳細な情報を含む長い要約を生成することを好む。これら2つのLLMは、対話型プロンプトの助けを借りて、情報量と簡潔さのバランスをさらにとることができ、CLSの性能を大幅に向上させることができる。広く使われている3つのCLSデータセットでの実験結果から、GPT-4は最先端のゼロショットCLS性能を達成し、微調整されたmBART-50と比較して競争力のある性能を示す。さらに、多言語・二ヶ国語のLLM(BLOOMZ、ChatGLM-6B、Vicuna-13B、ChatYuan)は、ゼロショットCLS能力に限界があることも分かりました。要約と翻訳を同時に行う必要があるCLSの複合的な性質上、このタスクをゼロショットで達成することは、LLMにとって挑戦でさえある。したがって、将来のLLM研究がCLSをテストベッドとして利用できることを切に望み、推奨する。

要約(オリジナル)

Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.

arxiv情報

著者 Jiaan Wang,Yunlong Liang,Fandong Meng,Beiqi Zou,Zhixu Li,Jianfeng Qu,Jie Zhou
発行日 2023-07-03 14:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク