要約
ディープニューラルネットワーク(DNN)の採用は、過去10年間、自然言語処理(NLP)に大きな恩恵を与えてきた。しかし、長文解析の要求は短文解析とは大きく異なり、また、オンラインにアップロードされる文書のサイズが増加し続けているため、長文解析の自動化は重要な研究分野となっています。本稿の目的は2つある。a)関連するニューラル・ビルディング・ブロックを概観し、短いチュートリアルの役割を果たすこと、b)主に文書分類と文書要約という2つの中心タスクに焦点を当て、長文NLPの最先端を調査することである。また、長文に対する感情分析についても、一般的に文書分類の特殊なケースとして扱われるため、取り上げている。さらに、この記事では、長文NLPに関連する主な課題、問題、および現在の解決策について議論しています。最後に、さらなる研究を促進するために、関連する一般公開されている注釈付きデータセットを紹介する。
要約(オリジナル)
The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of long texts a critical area of research. This article has two goals: a) it overviews the relevant neural building blocks, thus serving as a short tutorial, and b) it surveys the state-of-the-art in long document NLP, mainly focusing on two central tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Additionally, this article discusses the main challenges, issues and current solutions related to long document NLP. Finally, the relevant, publicly available, annotated datasets are presented, in order to facilitate further research.
arxiv情報
著者 | Dimitrios Tsirmpas,Ioannis Gkionis,Ioannis Mademlis |
発行日 | 2023-06-02 12:34:21+00:00 |
arxivサイト | arxiv_id(pdf) |