Multilingual Attribute Extraction from News Web Pages

要約

本稿では、多言語にわたるニュース記事のウェブページから属性を自動的に抽出するという課題に取り組む。最近のニューラルネットワークモデルは、半構造化ウェブページからの情報抽出において高い有効性を示している。しかし、これらのモデルは主に電子商取引のようなドメインに適用され、英語のデータを用いて事前に訓練されているため、他の言語のウェブページへの適用が複雑になっている。我々は、161のウェブサイトから6つの言語(英語、ドイツ語、ロシア語、中国語、韓国語、アラビア語)にまたがる3,172のマークアップされたニュースウェブページからなる多言語データセットを準備した。このデータセットはGitHubで公開されている。我々は、これらのページからニュース属性を抽出するために、事前に訓練された最先端のモデルであるMarkupLMを微調整し、ページを英語に翻訳することが抽出品質に与える影響を評価した。さらに、別の最先端モデルであるDOM-LMを多言語データで事前に訓練し、我々のデータセットで微調整を行った。微調整した両モデルを既存のオープンソースのニュースデータ抽出ツールと比較し、優れた抽出指標を達成した。

要約(オリジナル)

This paper addresses the challenge of automatically extracting attributes from news article web pages across multiple languages. Recent neural network models have shown high efficacy in extracting information from semi-structured web pages. However, these models are predominantly applied to domains like e-commerce and are pre-trained using English data, complicating their application to web pages in other languages. We prepared a multilingual dataset comprising 3,172 marked-up news web pages across six languages (English, German, Russian, Chinese, Korean, and Arabic) from 161 websites. The dataset is publicly available on GitHub. We fine-tuned the pre-trained state-of-the-art model, MarkupLM, to extract news attributes from these pages and evaluated the impact of translating pages into English on extraction quality. Additionally, we pre-trained another state-of-the-art model, DOM-LM, on multilingual data and fine-tuned it on our dataset. We compared both fine-tuned models to existing open-source news data extraction tools, achieving superior extraction metrics.

arxiv情報

著者 Pavel Bedrin,Maksim Varlamov,Alexander Yatskov
発行日 2025-02-04 09:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク