Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art

要約

過去 10 年間、ディープ ニューラル ネットワーク (DNN) の採​​用は自然言語処理 (NLP) に大きな恩恵をもたらしました。
ただし、長い文書分析の要求は短いテキストの分析とはまったく異なります。一方、オンラインにアップロードされる文書のサイズはますます増大しており、長いテキストの自動理解が重要な問題となっています。
関連するアプリケーションには、自動化された Web マイニング、法的文書レビュー、医療記録分析、財務報告書分析、契約管理、環境影響評価、ニュース集約などが含まれます。長い文書を分析するための効率的なアルゴリズムは比較的最近開発されたにもかかわらず、この分野の実用的なツールは現在充実しています。
この記事は、この動的な領域への入り口として機能し、2 つの目的を達成することを目的としています。
まず、関連する神経構成要素の概要を示し、この分野の簡潔なチュートリアルとして機能します。
次に、文書の分類と文書の要約という 2 つの重要なタスクに主に焦点を当て、現在の最先端の長い文書 NLP について簡単に検証します。
長いテキストのセンチメント分析も、通常は文書分類の特定のケースとして扱われるため、取り上げられます。
したがって、この記事では、ドキュメント レベルの分析の概要を説明し、主な課題、懸念事項、および既存のソリューションに対処します。
最後に、この記事では、この分野でのさらなる研究を促進できる、公開されている注釈付きデータセットを紹介します。

要約(オリジナル)

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of lengthy texts a critical issue. Relevant applications include automated Web mining, legal document review, medical records analysis, financial reports analysis, contract management, environmental impact assessment, news aggregation, etc. Despite the relatively recent development of efficient algorithms for analyzing long documents, practical tools in this field are currently flourishing. This article serves as an entry point into this dynamic domain and aims to achieve two objectives. Firstly, it provides an overview of the relevant neural building blocks, serving as a concise tutorial for the field. Secondly, it offers a brief examination of the current state-of-the-art in long document NLP, with a primary focus on two key tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Consequently, this article presents an introductory exploration of document-level analysis, addressing the primary challenges, concerns, and existing solutions. Finally, the article presents publicly available annotated datasets that can facilitate further research in this area.

arxiv情報

著者 Dimitrios Tsirmpas,Ioannis Gkionis,Ioannis Mademlis,Georgios Papadopoulos
発行日 2023-07-23 20:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク