Smart Bilingual Focused Crawling of Parallel Documents

要約

インターネットからの並列テキスト $\unicode{x2014}$text の相互翻訳 $\unicode{x2014}$ のクロールは、通常、ブルートフォース手法に従って行われます。文書はガイドなしのプロセスで大量にダウンロードされ、その一部のみがダウンロードされます。
最終的には実際の並行コンテンツにつながります。
この研究では、並列コンテンツをより迅速に見つけるためにクロールをガイドするスマートなクロール方法を提案します。
私たちのアプローチは 2 つの異なるモデルに基づいて構築されています。1 つは URL からドキュメントの言語を推測するモデル、もう 1 つは URL のペアが並列ドキュメントにリンクしているかどうかを推測するモデルです。
私たちは両方のモデルを単独で評価し、クローリング ツールへの統合を評価します。
この結果は、両方のモデルの個別の有効性を示しており、これらを組み合わせることで、クロール中に並列コンテンツを早期に発見できるようになり、無駄とみなされるダウンロードされるドキュメントの量が減少し、従来のクロール アプローチと比較してより大量の並列ドキュメントが得られることが強調されています。

要約(オリジナル)

Crawling parallel texts $\unicode{x2014}$texts that are mutual translations$\unicode{x2014}$ from the Internet is usually done following a brute-force approach: documents are massively downloaded in an unguided process, and only a fraction of them end up leading to actual parallel content. In this work we propose a smart crawling method that guides the crawl towards finding parallel content more rapidly. Our approach builds on two different models: one that infers the language of a document from its URL, and another that infers whether a pair of URLs link to parallel documents. We evaluate both models in isolation and their integration into a crawling tool. The results demonstrate the individual effectiveness of both models and highlight that their combination enables the early discovery of parallel content during crawling, leading to a reduction in the amount of downloaded documents deemed useless, and yielding a greater quantity of parallel documents compared to conventional crawling approaches.

arxiv情報

著者 Cristian García-Romero,Miquel Esplà-Gomis,Felipe Sánchez-Martínez
発行日 2024-05-23 16:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク