Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art

要約

過去 10 年間、ディープ ニューラル ネットワーク (DNN) の採​​用は自然言語処理 (NLP) に大きな恩恵をもたらしました。
ただし、長い文書分析の要求は短いテキストの分析とはまったく異なります。その一方で、オンラインにアップロードされる文書のサイズはますます増大しており、長いテキストの自動理解が研究の重要な分野となっています。
この記事には 2 つの目的があります: a) 関連するニューラル構成要素を概説し、短いチュートリアルとして機能します。b) 主に 2 つの中心的なタスクに焦点を当てて、長い文書 NLP の最先端を概観します。
そして書類の要約。
長いテキストのセンチメント分析も、通常は文書分類の特定のケースとして扱われるため、取り上げられます。
さらに、この記事では、長い文書の NLP に関連する主な課題、問題点、および現在の解決策についても説明します。
最後に、さらなる研究を促進するために、関連する、公開されている、注釈付きのデータセットが表示されます。

要約(オリジナル)

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of long texts a critical area of research. This article has two goals: a) it overviews the relevant neural building blocks, thus serving as a short tutorial, and b) it surveys the state-of-the-art in long document NLP, mainly focusing on two central tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Additionally, this article discusses the main challenges, issues and current solutions related to long document NLP. Finally, the relevant, publicly available, annotated datasets are presented, in order to facilitate further research.

arxiv情報

著者 Dimitrios Tsirmpas,Ioannis Gkionis,Ioannis Mademlis
発行日 2023-06-01 16:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク