T3: A Novel Zero-shot Transfer Learning Framework Iteratively Training on an Assistant Task for a Target Task

要約

長いテキストの要約は、大量の情報を効率的に処理するために徐々に不可欠になってきていますが、オープンソースのトレーニング データセットが不十分であり、コンテキストの詳細を扱う高い要件があるため、GPT や LLaMA ファミリなどの大規模言語モデル (LLM) にとっては依然として困難です。
この問題に対処するために、T3 と略される新しいゼロショット転移学習フレームワークを設計し、ターゲット タスクのアシスタント タスクでベースライン LLM を反復的にトレーニングします。前者はより豊富なデータ リソースを所有し、構造的または意味的な類似性を共有する必要があります。
後者。
実際に、T3 はアシスタント タスクとして質問応答を利用することで長いテキストの要約タスクに対処し、BBC 要約、NarraSum、FairytaleQA、および NLQuAD データセットでの有効性をさらに検証し、ROUGE で最大 14% 近く改善しました。
、3 つのベースライン LLM と比較して、BLEU で 35% 向上、ファクトスコアで 16% 向上し、より多くのアシスタントとターゲットのタスクの組み合わせの可能性を示しています。

要約(オリジナル)

Long text summarization, gradually being essential for efficiently processing large volumes of information, stays challenging for Large Language Models (LLMs) such as GPT and LLaMA families because of the insufficient open-sourced training datasets and the high requirement of contextual details dealing. To address the issue, we design a novel zero-shot transfer learning framework, abbreviated as T3, to iteratively training a baseline LLM on an assistant task for the target task, where the former should own richer data resources and share structural or semantic similarity with the latter. In practice, T3 is approached to deal with the long text summarization task by utilizing question answering as the assistant task, and further validated its effectiveness on the BBC summary, NarraSum, FairytaleQA, and NLQuAD datasets, with up to nearly 14% improvement in ROUGE, 35% improvement in BLEU, and 16% improvement in Factscore compared to three baseline LLMs, demonstrating its potential for more assistant-target task combinations.

arxiv情報

著者 Xindi Tong,Yujin Zhu,Shijian Fan,Liang Xu
発行日 2025-01-17 04:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク