Quantifying Geospatial in the Common Crawl Corpus

要約

大規模言語モデル (LLM) は、Common Crawl (CC) コーパスから派生することが多い、ラベルのない膨大なテキスト データセットでの事前トレーニングに由来する、新たな地理空間機能を示します。
ただし、CC 内の地理空間コンテンツはほとんど未調査のままであり、LLM の空間推論の理解に影響を与えています。
このペーパーでは、強力な言語モデルである Gemini 1.5 を使用して、最近の Common Crawl リリースにおける地理空間データの普及状況を調査します。
ドキュメントのサンプルを分析し、その結果を手動で修正することにより、CC 内の Web ドキュメントの 18.7% に座標や住所などの地理空間情報が含まれていると推定されます。
英語文書と英語以外の文書の普及率にほとんど差はありません。
私たちの調査結果は、CC の地理空間データの性質と範囲について定量的な洞察を提供し、LLM の地理空間バイアスに関する将来の研究の基礎を築きます。

要約(オリジナル)

Large language models (LLMs) exhibit emerging geospatial capabilities, stemming from their pre-training on vast unlabelled text datasets that are often derived from the Common Crawl (CC) corpus. However, the geospatial content within CC remains largely unexplored, impacting our understanding of LLMs’ spatial reasoning. This paper investigates the prevalence of geospatial data in recent Common Crawl releases using Gemini 1.5, a powerful language model. By analyzing a sample of documents and manually revising the results, we estimate that 18.7% of web documents in CC contain geospatial information such as coordinates and addresses. We find little difference in prevalence between Enlgish- and non-English-language documents. Our findings provide quantitative insights into the nature and extent of geospatial data in CC, and lay the groundwork for future studies of geospatial biases of LLMs.

arxiv情報

著者 Ilya Ilyankou,Meihui Wang,Stefano Cavazzi,James Haworth
発行日 2024-08-29 16:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク