Edisum: Summarizing and Explaining Wikipedia Edits at Scale

要約

編集要約とは、ウィキペディアの編集者によって書かれた、ウィキペディアのページの編集の性質と理由を説明する簡潔なコメントのことです。編集要約は百科事典を維持するために極めて重要です。編集要約はコンテンツモデレーターが最初に目にするものであり、編集を受け入れるか拒否するかを決定するのに役立ちます。さらに、編集要約は研究者にとって貴重なデータソースとなる。残念ながら、私たちが示すように、多くの編集において要約は欠落しているか不完全である。この問題を克服し、編集者が有用な編集サマリーを書くのを助けるために、我々は、編集差分の表現が与えられた場合に良い編集サマリーを生成するように訓練された言語モデルによって生成された編集サマリーを推薦するモデルを提案する。これは、学習データの質がまちまちであること、記事のどこが変更されたのかだけでなく、なぜ変更されたのかを理解する必要があること、ウィキペディアの規模によって効率性が要求されることなど、様々な理由から困難なタスクである。我々は、人間と合成的に生成された学習データの混合をキュレートし、ウィキペディアで大規模に使用できるように十分に小さい生成言語モデルを微調整することで、これらの課題に対処する。私たちのモデルは人間の編集者と同等の性能を発揮します。市販の大規模な言語モデルは、人間の編集者よりもこのタスクを解決できるが、ウィキペディアで大規模に実行するにはコストがかかりすぎる。より広い意味で、この論文は、言語モデリング技術が、ウェブ上で最大かつ最も目に見えるプロジェクトの一つを維持するために、人間をサポートするためにどのように使用できるかを紹介している。

要約(オリジナル)

An edit summary is a succinct comment written by a Wikipedia editor explaining the nature of, and reasons for, an edit to a Wikipedia page. Edit summaries are crucial for maintaining the encyclopedia: they are the first thing seen by content moderators and help them decide whether to accept or reject an edit. Additionally, edit summaries constitute a valuable data source for researchers. Unfortunately, as we show, for many edits, summaries are either missing or incomplete. To overcome this problem and help editors write useful edit summaries, we propose a model for recommending edit summaries generated by a language model trained to produce good edit summaries given the representation of an edit diff. This is a challenging task for multiple reasons, including mixed-quality training data, the need to understand not only what was changed in the article but also why it was changed, and efficiency requirements imposed by the scale of Wikipedia. We address these challenges by curating a mix of human and synthetically generated training data and fine-tuning a generative language model sufficiently small to be used on Wikipedia at scale. Our model performs on par with human editors. Commercial large language models are able to solve this task better than human editors, but would be too expensive to run on Wikipedia at scale. More broadly, this paper showcases how language modeling technology can be used to support humans in maintaining one of the largest and most visible projects on the Web.

arxiv情報

著者 Marija Šakota,Isaac Johnson,Guosheng Feng,Robert West
発行日 2024-04-04 13:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク