ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents

要約

テキストデータの増加は、特に研究記事から有用な情報を抽出する必要がある学者にとって、大きな文書の読み取りと理解に課題をもたらします。
自動テキストの要約は、長い文書を簡潔で有益な要約に凝縮するための強力なツールとして浮上しています。
使用されるアプローチに応じて、テキストの要約は抽出または抽象的なものとして分類できます。
抽出方法は単純さのために一般的に使用されますが、多くの場合、重要な情報を見逃しています。
一方、抽象的な要約は、テキストの根本的な意味を理解することにより、より一貫性のある有益な要約を生み出すことができます。
抽象的な手法はさまざまな言語で注目を集めており、Bert、Bart、T5などのトレーニング前モデルを通じて最近の進歩が達成されています。
ただし、長い文書を要約するという課題は残っており、この制限に対処するためにLongFormerのような代替モデルが導入されています。
これに関連して、このペーパーでは、ペルシャ語の抽象的な要約に焦点を当てています。
著者は、Ensani Webサイトから入手した300,000のフルテキストペルシャペルシャンの新しいデータセットを紹介し、概要を生成するためにロングフォーカーアーキテクチャに基づいてArmanモデルを適用します。
実験結果は、ペルシャのテキスト要約における有望なパフォーマンスを示しています。
このペーパーでは、関連する研究の包括的な概要を提供し、方法論について説明し、実験結果を提示し、将来の研究の方向性を示しています。

要約(オリジナル)

The increasing volume of textual data poses challenges in reading and comprehending large documents, particularly for scholars who need to extract useful information from research articles. Automatic text summarization has emerged as a powerful tool to condense lengthy documents into concise and informative summaries. Depending on the approach used, text summarization can be categorized as either extractive or abstractive. While extractive methods are commonly used due to their simplicity, they often miss important information. On the other hand, Abstractive Summarization can generate more coherent and informative summaries by understanding the underlying meaning of the text. Abstractive techniques have gained attention in various languages, and recent advancements have been achieved through pre-training models such as BERT, BART, and T5. However, the challenge of summarizing long documents remains, and alternative models like Longformer have been introduced to address this limitation. In this context, this paper focuses on abstractive summarization in the Persian language. The authors introduce a new dataset of 300,000 full-text Persian papers obtained from the Ensani website and apply the ARMAN model, based on the Longformer architecture, to generate summaries. The experimental results demonstrate promising performance in Persian text summarization. The paper provides a comprehensive overview of related work, discusses the methodology, presents the experimental results, and concludes with future research directions.

arxiv情報

著者 Samira Zangooei,Amirhossein Darmani,Hossein Farahmand Nezhad,Laya Mahmoudi
発行日 2025-03-13 10:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク