WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia

要約

タイトル「Wikipediaにおける文章の品質評価のための大規模データセットであるWikiSQE」
要約:
– Wikipediaは誰でも編集できるため様々な品質の文章が含まれている。
– 品質の低い編集は他の編集者によってマークされることがあるが、全てチェックすることは困難である。
– このプロセスを支援することは重要であるが、大規模かつ包括的なデータセットはまだ存在しない。
– そのため、本論文ではWikipediaにおける文の品質評価のための最初の大規模データセットであるWikiSQEを提案する。
– 各文はWikipediaの全改訂履歴から抽出され、品質ラベルは慎重に調査・選択された153のラベルが利用されている。
– 競合する機械学習モデルを用いた自動分類の実験では、引用、構文/意味、命題に問題のある文章が検出が困難であることが示された。
– また、自動散文評価実験により、データセットの汎用性を評価した結果、WikiSQEでトレーニングされたモデルがバニラモデルよりも良好な結果を示した。
– WikiSQEは、NLPの他のタスクにとって有用なリソースと期待される。

要約(オリジナル)

Wikipedia can be edited by anyone and thus contains various quality sentences. Therefore, Wikipedia includes some poor-quality edits, which are often marked up by other editors. While editors’ reviews enhance the credibility of Wikipedia, it is hard to check all edited text. Assisting in this process is very important, but a large and comprehensive dataset for studying it does not currently exist. Here, we propose WikiSQE, the first large-scale dataset for sentence quality estimation in Wikipedia. Each sentence is extracted from the entire revision history of Wikipedia, and the target quality labels were carefully investigated and selected. WikiSQE has about 3.4 M sentences with 153 quality labels. In the experiment with automatic classification using competitive machine learning models, sentences that had problems with citation, syntax/semantics, or propositions were found to be more difficult to detect. In addition, we conducted automated essay scoring experiments to evaluate the generalizability of the dataset. We show that the models trained on WikiSQE perform better than the vanilla model, indicating its potential usefulness in other domains. WikiSQE is expected to be a valuable resource for other tasks in NLP.

arxiv情報

著者 Kenichiro Ando,Satoshi Sekine,Mamoru Komachi
発行日 2023-05-10 06:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク