One model to rule them all: ranking Slovene summarizers

要約

テキストの要約は自然言語処理において不可欠なタスクであり、研究者はルールベースのシステムからニューラルネットワークに至るまで、長年にわたってさまざまなアプローチを開発してきました。
ただし、あらゆる種類のテキストで適切に機能する単一のモデルやアプローチはありません。
与えられたテキストに対して最適な要約モデルを推奨するシステムを提案します。
提案されたシステムは、入力コンテンツを分析し、特定の入力に対する ROUGE スコアに関してどのサマライザーが最高のスコアを獲得するかを予測する、完全に接続されたニューラル ネットワークを採用しています。
メタモデルは、入力のさまざまなプロパティ、特にその Doc2Vec 文書表現を使用して、スロベニア語用に開発された 4 つの異なる要約モデルの中から選択します。
4 つのスロベニア語要約モデルは、リソースの少ない言語でのテキスト要約に関連するさまざまな課題に対処します。
提案された SloMetaSum モデルのパフォーマンスを自動的に評価し、その一部を手動で評価します。
結果は、システムが最適なモデルを手動で選択するステップを正常に自動化していることを示しています。

要約(オリジナル)

Text summarization is an essential task in natural language processing, and researchers have developed various approaches over the years, ranging from rule-based systems to neural networks. However, there is no single model or approach that performs well on every type of text. We propose a system that recommends the most suitable summarization model for a given text. The proposed system employs a fully connected neural network that analyzes the input content and predicts which summarizer should score the best in terms of ROUGE score for a given input. The meta-model selects among four different summarization models, developed for the Slovene language, using different properties of the input, in particular its Doc2Vec document representation. The four Slovene summarization models deal with different challenges associated with text summarization in a less-resourced language. We evaluate the proposed SloMetaSum model performance automatically and parts of it manually. The results show that the system successfully automates the step of manually selecting the best model.

arxiv情報

著者 Aleš Žagar,Marko Robnik-Šikonja
発行日 2023-06-20 13:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク