要約
オープンドメインの対話での回答選択は、候補の中から正確な回答を選択することを目的としています。
回答選択モデルの最近の成功は、大量のラベル付きデータを使用したトレーニングにかかっています。
ただし、大規模なラベル付きデータの収集には労力と時間がかかります。
この論文では、自己訓練パラダイムで回答ラベルを調整するための予測された意図ラベルを紹介します。
具体的には、意図調整された回答選択パラダイムを通じて疑似回答ラベルの品質を向上させるための意図調整された自己トレーニング (ICAST) を提案します。このパラダイムでは、疑似回答ラベルを改善するために疑似意図ラベルを使用します。
私たちは、オープンドメインの対話を使用して 2 つのベンチマーク データセットに対して広範な実験を実行します。
実験結果は、ICAST が 1%、5%、および 10% のラベル付きデータで一貫してベースラインを上回るパフォーマンスを示していることを示しています。
具体的には、わずか 5% のラベル付きデータを含む最も強力なベースラインと比較して、2 つのデータセットの F1 スコアが 2.06% および 1.00% 向上しました。
要約(オリジナル)
Answer selection in open-domain dialogues aims to select an accurate answer from candidates. Recent success of answer selection models hinges on training with large amounts of labeled data. However, collecting large-scale labeled data is labor-intensive and time-consuming. In this paper, we introduce the predicted intent labels to calibrate answer labels in a self-training paradigm. Specifically, we propose the intent-calibrated self-training (ICAST) to improve the quality of pseudo answer labels through the intent-calibrated answer selection paradigm, in which we employ pseudo intent labels to help improve pseudo answer labels. We carry out extensive experiments on two benchmark datasets with open-domain dialogues. The experimental results show that ICAST outperforms baselines consistently with 1%, 5% and 10% labeled data. Specifically, it improves 2.06% and 1.00% of F1 score on the two datasets, compared with the strongest baseline with only 5% labeled data.
arxiv情報
著者 | Wentao Deng,Jiahuan Pei,Zhaochun Ren,Zhumin Chen,Pengjie Ren |
発行日 | 2023-07-13 12:02:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google