Automatic summarisation of Instagram social network posts Combining semantic and statistical approaches

要約

記事、Web ページ、書籍、ソーシャル ネットワークの投稿などのデータおよびテキスト ドキュメントがインターネット上で急増したことにより、「自動テキスト要約」というタイトルでテキスト処理のさまざまな分野に根本的な課題が生じました。
大量のテキスト データを手動で処理して要約することは、非常に困難で、費用と時間がかかり、人間のユーザーにとっては不可能なプロセスです。
テキスト要約システムは、抽出的カテゴリと抽象的カテゴリに分類されます。
抽出要約法では、テキスト文書の最終的な要約は、同じ文書の重要な文からそのまま抽出されます。
この方法では、一連の文を繰り返したり、代名詞を干渉したりすることができます。
しかし、抽象要約法では、テキスト文書の最終的な要約は、同じ文書または他の文書の文や単語の意味と重要性から抽出されます。
実行された作業の多くは、Web ドキュメントのコレクションを要約するために抽出方法または要約を使用しており、類似性またはサイズの点で得られる結果にはそれぞれ長所と短所があります。
この作業では、適切な前処理を使用して Instagram ソーシャル ネットワークから人気のあるテキスト投稿を抽出するクローラーが開発され、一連の抽出アルゴリズムと抽象化アルゴリズムが組み合わされて、各抽象化アルゴリズムの使用方法が示されています。
ソーシャル ネットワーク Instagram の 820 の人気のあるテキスト投稿で行われた観察は、提案されたシステムの精度 (80%) を示しています。

要約(オリジナル)

The proliferation of data and text documents such as articles, web pages, books, social network posts, etc. on the Internet has created a fundamental challenge in various fields of text processing under the title of ‘automatic text summarisation’. Manual processing and summarisation of large volumes of textual data is a very difficult, expensive, time-consuming and impossible process for human users. Text summarisation systems are divided into extractive and abstract categories. In the extractive summarisation method, the final summary of a text document is extracted from the important sentences of the same document without any modification. In this method, it is possible to repeat a series of sentences and to interfere with pronouns. However, in the abstract summarisation method, the final summary of a textual document is extracted from the meaning and significance of the sentences and words of the same document or other documents. Many of the works carried out have used extraction methods or abstracts to summarise the collection of web documents, each of which has advantages and disadvantages in the results obtained in terms of similarity or size. In this work, a crawler has been developed to extract popular text posts from the Instagram social network with appropriate preprocessing, and a set of extraction and abstraction algorithms have been combined to show how each of the abstraction algorithms can be used. Observations made on 820 popular text posts on the social network Instagram show the accuracy (80%) of the proposed system.

arxiv情報

著者 Kazem Taghandiki,Mohammad Hassan Ahmadi,Elnaz Rezaei Ehsan
発行日 2023-03-14 14:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク