TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale

要約

大規模言語モデル (LLM) の出現により、テキスト要約などの自然言語処理タスクが大幅に進歩しました。
ただし、そのサイズと計算量の要求が大きく、データ送信におけるプライバシーの問題と相まって、リソースに制約がありプライバシーを重視した設定での使用は制限されます。
これを克服するために、LLM のテキスト要約機能をコンパクトなローカル モデルに抽出するためのフレームワークである TriSum を導入します。
最初に、LLM は一連のアスペクト トリプルの根拠と要約を抽出し、品質の二重スコアリング方法を使用して洗練されます。
次に、単純なタスクから複雑なタスクに進化するカリキュラム学習戦略を採用して、より小規模なローカル モデルがこれらのタスクでトレーニングされます。
私たちの手法は、さまざまなベンチマーク (CNN/DailyMail、XSum、ClinicalTrial) でローカル モデルのパフォーマンスを向上させ、ベースラインをそれぞれ 4.5%、8.5%、7.4% 上回りました。
また、要約の理論的根拠についての洞察を提供することで、解釈可能性も向上します。

要約(オリジナル)

The advent of large language models (LLMs) has significantly advanced natural language processing tasks like text summarization. However, their large size and computational demands, coupled with privacy concerns in data transmission, limit their use in resource-constrained and privacy-centric settings. To overcome this, we introduce TriSum, a framework for distilling LLMs’ text summarization abilities into a compact, local model. Initially, LLMs extract a set of aspect-triple rationales and summaries, which are refined using a dual-scoring method for quality. Next, a smaller local model is trained with these tasks, employing a curriculum learning strategy that evolves from simple to complex tasks. Our method enhances local model performance on various benchmarks (CNN/DailyMail, XSum, and ClinicalTrial), outperforming baselines by 4.5%, 8.5%, and 7.4%, respectively. It also improves interpretability by providing insights into the summarization rationale.

arxiv情報

著者 Pengcheng Jiang,Cao Xiao,Zifeng Wang,Parminder Bhatia,Jimeng Sun,Jiawei Han
発行日 2024-03-15 14:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク