要約
Wikidataの次世代破壊行為検出システムを紹介します。Wikidataは、Web上で最大のオープンソース構造化知識ベースの1つです。
Wikidataは非常に複雑です。そのアイテムには、事実上のトリプルと多言語テキストの拡大が続く宇宙が組み込まれています。
編集は構造化されたコンテンツとテキストコンテンツの両方を変更できますが、私たちのアプローチは、Graph2Textと呼ばれるメソッドを使用して、すべての編集を単一のスペースに変換します。
これにより、単一の多言語言語モデルを使用して、潜在的な破壊行為のすべてのコンテンツ変更を評価できます。
この統一されたアプローチは、カバレッジを改善し、メンテナンスを簡素化します。
実験は、私たちのソリューションが現在の生産システムよりも優れていることを示しています。
さらに、オープンライセンスの下でコードをリリースし、さまざまな人間で生成された知識の変更の大規模なデータセットとともに、さらなる研究を可能にします。
要約(オリジナル)
We introduce a next-generation vandalism detection system for Wikidata, one of the largest open-source structured knowledge bases on the Web. Wikidata is highly complex: its items incorporate an ever-expanding universe of factual triples and multilingual texts. While edits can alter both structured and textual content, our approach converts all edits into a single space using a method we call Graph2Text. This allows for evaluating all content changes for potential vandalism using a single multilingual language model. This unified approach improves coverage and simplifies maintenance. Experiments demonstrate that our solution outperforms the current production system. Additionally, we are releasing the code under an open license along with a large dataset of various human-generated knowledge alterations, enabling further research.
arxiv情報
著者 | Mykola Trokhymovych,Lydia Pintscher,Ricardo Baeza-Yates,Diego Saez-Trumper |
発行日 | 2025-05-23 17:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google