Exploiting Representation Bias for Data Distillation in Abstractive Text Summarization

要約

深層学習モデルのニーズに応えるため、トレーニング サンプルの数が急増しており、抽象的なテキストの要約が行われています。
これらのモデルは、トレーニング データ表現を活用して、結果として得られる概要の定量的要素を改善することで優れたパフォーマンスを達成する傾向があります。
ただし、トレーニング セットのサイズを増やすことが、パフォーマンスを最大化するための理想的な解決策であるとは限りません。そのため、トレーニング サンプルの品質と深層学習モデルの学習プロトコルを再検討する必要があります。
この論文では、入力埋め込み空間とモデルのエンコーダ空間の間で学習された特性を理解するために、抽象的なテキスト要約モデルのベクトル空間を離散化することを目的としています。
ディープモデルは入力空間の多様性を捉えることができないことを示します。
さらに、エンコーダ空間上のデータ ポイントの分布は、トレーニング サンプルの無制限の増加が価値を付加しないことを示しています。
むしろ、モデルの変動性と忠実性に重点を置くためには、データ サンプルの分解が非常に必要です。
私たちはクラスタリング手法を使用して、モデルのサンプル空間の多様性と、データ ポイントが埋め込み空間からエンコーダ空間に、またはその逆にどのようにマッピングされるかを学習します。
さらに、モデルをより堅牢にし、データの消費量を少なくするために、冗長なデータ ポイントをフィルターで除外するメトリクスを考案します。
Rouge などの定量的メトリクスと、BERTScore、FEQA、Pyramid スコアなどの定性的メトリクスを使用して、提案された方法のベンチマークを行います。
また、モデルがさまざまな入力サンプルから多様性を学習することを妨げる理由も定量化します。

要約(オリジナル)

Abstractive text summarization is surging with the number of training samples to cater to the needs of the deep learning models. These models tend to exploit the training data representations to attain superior performance by improving the quantitative element of the resultant summary. However, increasing the size of the training set may not always be the ideal solution to maximize the performance, and therefore, a need to revisit the quality of training samples and the learning protocol of deep learning models is a must. In this paper, we aim to discretize the vector space of the abstractive text summarization models to understand the characteristics learned between the input embedding space and the models’ encoder space. We show that deep models fail to capture the diversity of the input space. Further, the distribution of data points on the encoder space indicates that an unchecked increase in the training samples does not add value; rather, a tear-down of data samples is highly needed to make the models focus on variability and faithfulness. We employ clustering techniques to learn the diversity of a model’s sample space and how data points are mapped from the embedding space to the encoder space and vice versa. Further, we devise a metric to filter out redundant data points to make the model more robust and less data hungry. We benchmark our proposed method using quantitative metrics, such as Rouge, and qualitative metrics, such as BERTScore, FEQA and Pyramid score. We also quantify the reasons that inhibit the models from learning the diversity from the varied input samples.

arxiv情報

著者 Yash Kumar Atri,Vikram Goyal,Tanmoy Chakraborty
発行日 2023-12-20 15:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク