Neural Natural Language Processing for Long Texts: A Survey on Classification and Summarization

要約

過去 10 年間、ディープ ニューラル ネットワーク (DNN) の採​​用は自然言語処理 (NLP) に大きな恩恵をもたらしました。
ただし、長い文書分析の要求は短いテキストの分析とはまったく異なります。一方、オンラインにアップロードされる文書のサイズはますます増大しており、長いテキストの自動理解が重要な問題となっています。
関連するアプリケーションには、自動化された Web マイニング、法的文書レビュー、医療記録分析、財務報告書分析、契約管理、環境影響評価、ニュース集約などが含まれます。長い文書を分析するための効率的なアルゴリズムは比較的最近開発されたにもかかわらず、この分野の実用的なツールは
現在繁盛中。
この記事は、この動的な領域への入り口として機能し、2 つの目的を達成することを目的としています。
まず、関連する神経構成要素の概要を説明し、この分野の簡潔なチュートリアルとして機能します。
次に、文書分類と文書要約という 2 つの重要な長い文書分析タスクにおける現在の最先端技術を簡単に検証します。
長いテキストのセンチメント分析も、通常は文書分類の特定のケースとして扱われるため、取り上げられます。
したがって、この記事ではドキュメント レベルの分析の入門的な探究を示し、主な課題、懸念事項、および既存のソリューションに対処します。
最後に、「長いテキスト/文書」の簡潔な定義を提供し、長い文書分析のための一般的なディープ ニューラル手法の独自の包括的な分類法を提示し、この分野でのさらなる研究を容易にすることができる、公開されている注釈付きデータセットのリストを示しています。

要約(オリジナル)

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded online renders automated understanding of lengthy texts a critical issue. Relevant applications include automated Web mining, legal document review, medical records analysis, financial reports analysis, contract management, environmental impact assessment, news aggregation, etc. Despite the relatively recent development of efficient algorithms for analyzing long documents, practical tools in this field are currently flourishing. This article serves as an entry point into this dynamic domain and aims to achieve two objectives. First of all, it provides an introductory overview of the relevant neural building blocks, serving as a concise tutorial for the field. Secondly, it offers a brief examination of the current state-of-the-art in two key long document analysis tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Consequently, this article presents an introductory exploration of document-level analysis, addressing the primary challenges, concerns, and existing solutions. Finally, it offers a concise definition of ‘long text/document’, presents an original overarching taxonomy of common deep neural methods for long document analysis and lists publicly available annotated datasets that can facilitate further research in this area.

arxiv情報

著者 Dimitrios Tsirmpas,Ioannis Gkionis,Georgios Th. Papadopoulos,Ioannis Mademlis
発行日 2024-03-15 08:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク