The State and Fate of Summarization Datasets

要約

自動要約は、その汎用性とさまざまな下流タスクでの幅広い用途により、常に注目を集めています。
人気があるにもかかわらず、アノテーションの取り組みはほとんどバラバラで、共通の用語が欠けていることがわかりました。
したがって、既存のリソースを発見したり、一貫した研究の方向性を特定したりすることは困難です。
これに対処するために、私たちは 100 以上の言語で 133 のデータセットにわたる大規模な作業を調査し、サンプルのプロパティ、収集方法、配布をカバーする新しいオントロジーを作成しました。
このオントロジーを使用して、低リソース言語向けにアクセス可能な高品質のデータセットが不足していること、この分野がニュース領域や自動的に収集された遠隔監視に過度に依存していることなど、重要な観察が行われます。
最後に、ユーザーがオントロジーとデータセットのコレクションを対話および探索できるようにする Web インターフェイスと、将来の研究をより一貫した一連の作業に合理化するために使用できる要約データ カードのテンプレートを利用可能にします。

要約(オリジナル)

Automatic summarization has consistently attracted attention, due to its versatility and wide application in various downstream tasks. Despite its popularity, we find that annotation efforts have largely been disjointed, and have lacked common terminology. Consequently, it is challenging to discover existing resources or identify coherent research directions. To address this, we survey a large body of work spanning 133 datasets in over 100 languages, creating a novel ontology covering sample properties, collection methods and distribution. With this ontology we make key observations, including the lack in accessible high-quality datasets for low-resource languages, and the field’s over-reliance on the news domain and on automatically collected distant supervision. Finally, we make available a web interface that allows users to interact and explore our ontology and dataset collection, as well as a template for a summarization data card, which can be used to streamline future research into a more coherent body of work.

arxiv情報

著者 Noam Dahan,Gabriel Stanovsky
発行日 2024-11-07 10:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク