Investigating Text Shortening Strategy in BERT: Truncation vs Summarization

要約

Transformerベースのモデルの並列性は、入力の最大長という代償を伴う。この制限を克服する方法を提案した研究もあるが、代替手段としての要約の有効性を報告したものはない。本研究では、テキスト分類タスクにおける文書切り捨てと要約の性能を調査する。両者はそれぞれいくつかのバリエーションで調査された。本研究では、両者の性能がフルテキストの性能にどの程度近いかも調査した。インドネシアのニュース記事に基づく要約タスクのデータセット(IndoSum)を用いて分類テストを行った。本研究では、要約がどのように切り捨て手法のバリエーションの大部分を上回り、1つだけに負けるかを示す。この研究で得られた最良の戦略は、文書の先頭を取ることである。もう一つは抽出的要約である。本研究では、短縮の代替手段としての文書要約の可能性を引き出すためのさらなる研究につながる、結果に何が起こったかを説明する。本研究で使用したコードとデータは、https://github.com/mirzaalimm/TruncationVsSummarization で公開されている。

要約(オリジナル)

The parallelism of Transformer-based models comes at the cost of their input max-length. Some studies proposed methods to overcome this limitation, but none of them reported the effectiveness of summarization as an alternative. In this study, we investigate the performance of document truncation and summarization in text classification tasks. Each of the two was investigated with several variations. This study also investigated how close their performances are to the performance of full-text. We used a dataset of summarization tasks based on Indonesian news articles (IndoSum) to do classification tests. This study shows how the summaries outperform the majority of truncation method variations and lose to only one. The best strategy obtained in this study is taking the head of the document. The second is extractive summarization. This study explains what happened to the result, leading to further research in order to exploit the potential of document summarization as a shortening alternative. The code and data used in this work are publicly available in https://github.com/mirzaalimm/TruncationVsSummarization.

arxiv情報

著者 Mirza Alim Mutasodirin,Radityo Eko Prasojo
発行日 2024-03-19 15:01:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク