Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization

要約

Llama、Baichuan、Bloom モデルなどの大規模言語モデル (LLM) は、多くの自然言語タスクにおいて命令を微調整することで優れた能力を示します。
それにもかかわらず、対話におけるさまざまな役割の要約を生成することを目的とした対話要約タスクの場合、最先端の手法のほとんどは小さなモデル (例: Bart と Bert) で実行されます。
既存の方法では、グローバル/ローカル中心性スコアをモデルに追加するなど、小規模モデルにタスク指定の最適化を追加しようとします。
この論文では、役割指向の対話要約のための命令微調整モデル Baichuan2-Sum を提案します。
異なる役割に異なる指示を設定することで、モデルは対話のやり取りから学習し、期待される要約を出力できます。
さらに、NEFTune 技術を適用してトレーニング中に適切なノイズを追加し、結果を向上させました。
実験は、提案されたモデルが 2 つの公開対話要約データセット (CSDS と SAMSUM) に対して新しい最先端の結果を達成することを示しています。
対話要約タスクに関する今後の研究を促進するために、モデルと関連コードを公開します。

要約(オリジナル)

Large language models (LLMs) like Llama, Baichuan and Bloom models show remarkable ability with instruction fine-tuning in many natural language tasks. Nevertheless, for the dialogue summarization task, which aims to generate summaries for different roles in dialogue, most of the state-of-the-art methods conduct on small models (e.g Bart and Bert). Existing methods try to add task specified optimization on small models like adding global-local centrality score to models. In this paper, we propose an instruction fine-tuning model: Baichuan2-Sum, for role-oriented diaglouge summarization. By setting different instructions for different roles, the model can learn from the dialogue interactions and output the expected summaries. Furthermore, we applied NEFTune technique to add suitable noise during training to improve the results. The experiments demonstrate that the proposed model achieves the new state-of-the-art results on two public dialogue summarization datasets: CSDS and SAMSUM. We release our model and related codes to facilitate future studies on dialogue summarization task.

arxiv情報

著者 Jianfei Xiao,Yancan Chen,Yimin Ou,Hanyi Yu,Yiyong Xiao
発行日 2024-01-31 17:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク