要約
線形テキスト セグメンテーションは、テキスト ドキュメントにトピックの変化、つまりトピックが変化するテキスト内の場所を自動的にタグ付けするタスクです。
自然言語処理の確立された研究分野であり、言語学および計算言語学の研究でよく理解されている概念に基づいており、この分野は最近、インターネット上で利用できるテキスト、ビデオ、およびオーディオの急増により大きな関心を集めています。
Web では、線形テキストのセグメンテーションが基本的なステップとなる、大量のコンテンツを要約して分類する方法が必要になります。
この調査では、線形テキスト セグメンテーションの現在の進歩について広範な概要を提供し、このタスクに対するリソースとアプローチの観点から最先端の技術を説明します。
最後に、利用可能なリソースとタスク自体の限界を強調し、最新の文献と十分に検討されていない研究の方向性に基づいて前進する方法を示します。
要約(オリジナル)
Linear Text Segmentation is the task of automatically tagging text documents with topic shifts, i.e. the places in the text where the topics change. A well-established area of research in Natural Language Processing, drawing from well-understood concepts in linguistic and computational linguistic research, the field has recently seen a lot of interest as a result of the surge of text, video, and audio available on the web, which in turn require ways of summarising and categorizing the mole of content for which linear text segmentation is a fundamental step. In this survey, we provide an extensive overview of current advances in linear text segmentation, describing the state of the art in terms of resources and approaches for the task. Finally, we highlight the limitations of available resources and of the task itself, while indicating ways forward based on the most recent literature and under-explored research directions.
arxiv情報
著者 | Iacopo Ghinassi,Lin Wang,Chris Newell,Matthew Purver |
発行日 | 2024-11-25 17:48:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google