Geolocation Predicting of Tweets Using BERT-Based Models

要約

この研究は、ツイート/ユーザーの位置情報予測タスクを解決し、テキスト ビッグ データのジオタグ付けのための柔軟な方法論を提供することを目的としています。
推奨されるアプローチでは、自然言語処理 (NLP) 用のニューラル ネットワークを実装して、位置を座標ペア (経度、緯度) および 2 次元ガウス混合モデル (GMM) として推定します。
提案されたモデルの範囲は、基本モデルとして事前トレーニング済みの双方向エンコーダ表現 (BERT) を使用して、Twitter データセットで微調整されています。
パフォーマンス メトリクスは、ツイートのコンテンツとメタデータ コンテキストのテキスト特徴でトレーニングおよび評価されたモデルについて、世界レベルで 30 km 未満、米国レベルのデータセットで 15 km 未満の中央値エラーを示しています。

要約(オリジナル)

This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets’ content and metadata context.

arxiv情報

著者 Kateryna Lutsai,Christoph H. Lampert
発行日 2023-03-14 12:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク