Uzbek text summarization based on TF-IDF

要約

インターネットや電子情報サービスの急速な発展に伴い、情報量は驚異的な速さで増加しています。
時間の制約により、この情報をすべて読む機会はありません。
1 つのフィールドに関連するテキスト データを分析するタスクでさえ、多くの作業を必要とします。
テキスト要約タスクは、これらの問題の解決に役立ちます。
この記事では、ウズベク語の要約タスクに関する実験を紹介します。その方法論は、TF-IDF アルゴリズムに基づくテキストの抽象化に基づいていました。
この密度関数を使用して、テキストの意味的に重要な部分が抽出されます。
テキスト全体の重要な部分に n-gram 法を適用して、与えられたテキストを要約します。
著者は、「学校コーパス」と呼ばれる特別に手作りされたコーパスを使用して、提案された方法のパフォーマンスを評価しました。
結果は、提案されたアプローチがウズベク語テキストから要約を抽出するのに効果的であり、情報検索や自然言語処理などのさまざまなアプリケーションで使用できる可能性があることを示しています。
全体として、この研究は、リソース不足の言語におけるテキスト要約に関する研究の増加に貢献しています。

要約(オリジナル)

The volume of information is increasing at an incredible rate with the rapid development of the Internet and electronic information services. Due to time constraints, we don’t have the opportunity to read all this information. Even the task of analyzing textual data related to one field requires a lot of work. The text summarization task helps to solve these problems. This article presents an experiment on summarization task for Uzbek language, the methodology was based on text abstracting based on TF-IDF algorithm. Using this density function, semantically important parts of the text are extracted. We summarize the given text by applying the n-gram method to important parts of the whole text. The authors used a specially handcrafted corpus called ‘School corpus’ to evaluate the performance of the proposed method. The results show that the proposed approach is effective in extracting summaries from Uzbek language text and can potentially be used in various applications such as information retrieval and natural language processing. Overall, this research contributes to the growing body of work on text summarization in under-resourced languages.

arxiv情報

著者 Khabibulla Madatov,Shukurla Bekchanov,Jernej Vičič
発行日 2023-03-01 12:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク