HiPool: Modeling Long Documents Using Graph Neural Networks

要約

タイトル:HiPool:グラフニューラルネットワークを使用した長文書のモデリング

要約:
– 自然言語処理(NLP)における長いシークエンスをエンコードすることは、課題です。
– 最近のプリトレーニング言語モデルは多くのNLPタスクで十分な性能を発揮しているが、事前定義された最大長の制限により、より長いシーケンスに拡張することが困難である。
– したがって、最近の一部の研究では、長いシーケンスをモデリングするために階層を利用しています。
– しかし、ほとんどは上位階層のために連続的なモデルを適用しており、長期依存の問題を抱えています。
– 本論文では、このグラフベースの方法によってこれらの問題を軽減します。文レベルの情報をモデリングするために、まず固定長でシーケンスをチャンク化します。
– 次に、新しいアテンションメカニズムを使用して、文内および文間の相関関係をモデル化するためにグラフを活用します。
– また、長文書分類(LDC)の標準的なベンチマークが限られているため、本論文では、53kのサンプルと平均4034トークンの長さの6つのデータセットからなる新しい難易度の高いベンチマークを提案します。
– 評価では、F1値で競合するベースラインを2.6%上回り、最長シークエンスデータセットでは4.8%も上回りました。
– 当社の方法は、パフォーマンスとスケーラビリティに優れた階層的連続モデルよりも優れており、特に長いシーケンスに対してその優位性が示されています。

要約(オリジナル)

Encoding long sequences in Natural Language Processing (NLP) is a challenging problem. Though recent pretraining language models achieve satisfying performances in many NLP tasks, they are still restricted by a pre-defined maximum length, making them challenging to be extended to longer sequences. So some recent works utilize hierarchies to model long sequences. However, most of them apply sequential models for upper hierarchies, suffering from long dependency issues. In this paper, we alleviate these issues through a graph-based method. We first chunk the sequence with a fixed length to model the sentence-level information. We then leverage graphs to model intra- and cross-sentence correlations with a new attention mechanism. Additionally, due to limited standard benchmarks for long document classification (LDC), we propose a new challenging benchmark, totaling six datasets with up to 53k samples and 4034 average tokens’ length. Evaluation shows our model surpasses competitive baselines by 2.6% in F1 score, and 4.8% on the longest sequence dataset. Our method is shown to outperform hierarchical sequential models with better performance and scalability, especially for longer sequences.

arxiv情報

著者 Irene Li,Aosong Feng,Dragomir Radev,Rex Ying
発行日 2023-05-05 06:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク