Attention over pre-trained Sentence Embeddings for Long Document Classification

要約

ほとんどの NLP タスクにおける現在の事実上のモデルであるにもかかわらず、トランスフォーマーは、トークンの数に関する二次注意の複雑さのため、多くの場合、短いシーケンスに限定されます。
セルフアテンション計算のコストを削減するか、より小さなシーケンスをモデル化し、再帰メカニズムまたは新しいトランスフォーマー モデルを使用してそれらを組み合わせることで、この問題に対処するいくつかの試みが研究されました。
この論文では、事前にトレーニングされた文トランスフォーマーを利用して、個々の文の意味的に意味のある埋め込みから開始し、文書の長さに線形にスケールする小さな注意層を通じてそれらを結合することを提案します。
この単純なアーキテクチャによって得られた結果を、3 つの標準的な文書分類データセットについて報告します。
標準的な微調整を使用した現在の最先端のモデルと比較すると、研究された方法は (この構成に明確な最良のモデルがない場合でも) 競合する結果が得られます。
また、調査したアーキテクチャでは、基礎となる変圧器を凍結するとより良い結果が得られることも示します。
完全な微調整を避ける必要がある場合(たとえば、同じフリーズしたトランスが異なるアプリケーションで共有されている場合)に役立つ構成。
最後に、調査対象のアーキテクチャの単純なベースラインに対する関連性をさらに評価するために、2 つの追加実験が提供されます。

要約(オリジナル)

Despite being the current de-facto models in most NLP tasks, transformers are often limited to short sequences due to their quadratic attention complexity on the number of tokens. Several attempts to address this issue were studied, either by reducing the cost of the self-attention computation or by modeling smaller sequences and combining them through a recurrence mechanism or using a new transformer model. In this paper, we suggest to take advantage of pre-trained sentence transformers to start from semantically meaningful embeddings of the individual sentences, and then combine them through a small attention layer that scales linearly with the document length. We report the results obtained by this simple architecture on three standard document classification datasets. When compared with the current state-of-the-art models using standard fine-tuning, the studied method obtains competitive results (even if there is no clear best model in this configuration). We also showcase that the studied architecture obtains better results when freezing the underlying transformers. A configuration that is useful when we need to avoid complete fine-tuning (e.g. when the same frozen transformer is shared by different applications). Finally, two additional experiments are provided to further evaluate the relevancy of the studied architecture over simpler baselines.

arxiv情報

著者 Amine Abdaoui,Sourav Dutta
発行日 2023-07-18 09:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク