WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia

要約

ウィキペディアは誰でも編集できるため、さまざまな質の高い文章が掲載されています。
したがって、Wikipedia には低品質の編集が含まれており、他の編集者によってマークアップされることがよくあります。
編集者のレビューによってウィキペディアの信頼性は高まりますが、編集されたすべてのテキストをチェックするのは困難です。
このプロセスを支援することは非常に重要ですが、それを研究するための大規模で包括的なデータセットは現在存在しません。
ここでは、Wikipedia における文章品質推定のための初の大規模データセットである WikiSQE を提案します。
各文は英語版 Wikipedia の全改訂履歴から抽出され、対象となる品質ラベルは慎重に調査および選択されました。
WikiSQE には、153 の品質ラベルを持つ約 340 万の文があります。
競合機械学習モデルを使用した自動分類の実験では、引用、構文/意味論、または命題に問題がある文の検出がより困難であることがわかりました。
さらに、人間によるアノテーションを実行すると、開発したモデルのパフォーマンスがクラウドソーシングのワーカーよりも優れていることがわかりました。
WikiSQE は、NLP の他のタスクにとって貴重なリソースになることが期待されています。

要約(オリジナル)

Wikipedia can be edited by anyone and thus contains various quality sentences. Therefore, Wikipedia includes some poor-quality edits, which are often marked up by other editors. While editors’ reviews enhance the credibility of Wikipedia, it is hard to check all edited text. Assisting in this process is very important, but a large and comprehensive dataset for studying it does not currently exist. Here, we propose WikiSQE, the first large-scale dataset for sentence quality estimation in Wikipedia. Each sentence is extracted from the entire revision history of English Wikipedia, and the target quality labels were carefully investigated and selected. WikiSQE has about 3.4 M sentences with 153 quality labels. In the experiment with automatic classification using competitive machine learning models, sentences that had problems with citation, syntax/semantics, or propositions were found to be more difficult to detect. In addition, by performing human annotation, we found that the model we developed performed better than the crowdsourced workers. WikiSQE is expected to be a valuable resource for other tasks in NLP.

arxiv情報

著者 Kenichiro Ando,Satoshi Sekine,Mamoru Komachi
発行日 2023-12-29 21:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク