要約
半教師あり学習 (SSL) は、ラベル付きデータが不足し、ラベルなしデータが豊富なシナリオで広く使用されている手法です。
SSL は画像やテキストの分類にはよく使われていますが、抽出テキストの要約タスクについてはあまり研究されていません。
標準的な SSL メソッドは、教師と生徒のパラダイムに従い、最初に分類モデルをトレーニングし、次に分類器の信頼値を使用して後続のトレーニング サイクル用の疑似ラベルを選択します。
ただし、このような分類子は、評価のための特定の調整が欠如しているため、擬似ラベルの精度を測定するのには適していません。そのため、生成された概要のセマンティクスと正確性を捕捉できない信頼値が得られます。
この問題に対処するために、分類器の確率出力のみを使用するよりもより正確な擬似ラベルを持つラベルのない例を選択する、LLM を使用したプロンプトベースの擬似ラベル付け戦略を提案します。
私たちのアプローチには、擬似ラベルの品質を向上させる再ラベル付けメカニズムも含まれています。
TweetSumm、WikiHow、ArXiv/PubMed の 3 つのテキスト要約データセットでメソッドを評価します。
擬似ラベルをスコア付けして生成するプロンプトベースの LLM が、すべてのデータセットの ROUGE-1、ROUGE-2、および ROUGE-L スコアで既存の SSL メソッドよりも優れていることが経験的に示されています。
さらに、私たちの方法は、ラベル付きデータの 16.67% のみを使用してラベル付きデータを 100% 使用する完全教師ありメソッドとして、競合する G-Eval スコア (GPT-4 による評価) を達成しています。
要約(オリジナル)
Semi-supervised learning (SSL) is a widely used technique in scenarios where labeled data is scarce and unlabeled data is abundant. While SSL is popular for image and text classification, it is relatively underexplored for the task of extractive text summarization. Standard SSL methods follow a teacher-student paradigm to first train a classification model and then use the classifier’s confidence values to select pseudo-labels for the subsequent training cycle; however, such classifiers are not suitable to measure the accuracy of pseudo-labels as they lack specific tuning for evaluation, which leads to confidence values that fail to capture the semantics and correctness of the generated summary. To address this problem, we propose a prompt-based pseudo-labeling strategy with LLMs that picks unlabeled examples with more accurate pseudo-labels than using just the classifier’s probability outputs. Our approach also includes a relabeling mechanism that improves the quality of pseudo-labels. We evaluate our method on three text summarization datasets: TweetSumm, WikiHow, and ArXiv/PubMed. We empirically show that a prompting-based LLM that scores and generates pseudo-labels outperforms existing SSL methods on ROUGE-1, ROUGE-2, and ROUGE-L scores on all the datasets. Furthermore, our method achieves competitive G-Eval scores (evaluation with GPT-4) as a fully supervised method that uses 100% of the labeled data with only 16.67% of the labeled data.
arxiv情報
著者 | Gaurav Sahu,Olga Vechtomova,Issam H. Laradji |
発行日 | 2024-04-05 17:19:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google