Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models

要約

ほとんどのWebおよびデジタルトレースデータには、プライバシーの懸念による個人の国籍に関する情報は含まれていません。
国籍に関するデータの欠如は、移民研究の課題を引き起こす可能性があります。
移民の出身国については不確かであるため、左検閲の問題につながる可能性があります。
移民イベントを観察したら、国籍を知っていれば、それを返品移行と区別することができます。
利用可能なデータ、つまりフルネームで国籍を検出する方法を提案します。
私たちは、研究者の移住を研究する際に一般的なアプローチである学問の国と比較して、検出された国籍を使用しています。
ウィキペディアから260万個のユニークな名前の国家ペアを収集し、トレーニングデータとして使用するために3つの粒度レベルのある国籍の家族に分類しました。
キャラクターベースの機械学習モデルを使用して、最も広い範囲で84%、最も粒状の国レベルの分類で67%の加重F1スコアを達成しました。
実証研究では、訓練されたテストされたモデルを使用して、国籍をScopusデータの800​​万人以上の学者のフルネームに割り当てました。
私たちの結果は、特に米国、オーストラリア、カナダなどのより多様な学術労働力を持つ国では、最初の出版物の国を国籍の代理として使用することで、リターンフローの規模が過小評価されていることが示されています。
アカデミックオリジンに基づいて33%とは対照的に、米国からの移民の約48%が復帰移民であることがわかりました。
最近の期間には、提携が米国から中国に一貫して変化し、移民と見なされている学者の79%が、中国語の学問的起源で41%とは対照的に中国語の名前を持っています。
左検閲の問題に対処するための提案された方法は、デジタルトレースデータを使用して移行を研究する他の研究にとって有益です。

要約(オリジナル)

Most web and digital trace data do not include information about an individual’s nationality due to privacy concerns. The lack of data on nationality can create challenges for migration research. It can lead to a left-censoring issue since we are uncertain about the migrant’s country of origin. Once we observe an emigration event, if we know the nationality, we can differentiate it from return migration. We propose methods to detect the nationality with the least available data, i.e., full names. We use the detected nationality in comparison with the country of academic origin, which is a common approach in studying the migration of researchers. We gathered 2.6 million unique name-nationality pairs from Wikipedia and categorized them into families of nationalities with three granularity levels to use as our training data. Using a character-based machine learning model, we achieved a weighted F1 score of 84% for the broadest and 67% for the most granular, country-level categorization. In our empirical study, we used the trained and tested model to assign nationality to 8+ million scholars’ full names in Scopus data. Our results show that using the country of first publication as a proxy for nationality underestimates the size of return flows, especially for countries with a more diverse academic workforce, such as the USA, Australia, and Canada. We found that around 48% of emigration from the USA was return migration once we used the country of name origin, in contrast to 33% based on academic origin. In the most recent period, 79% of scholars whose affiliation has consistently changed from the USA to China, and are considered emigrants, have Chinese names in contrast to 41% with a Chinese academic origin. Our proposed methods for addressing left-censoring issues are beneficial for other research that uses digital trace data to study migration.

arxiv情報

著者 Faeze Ghorbanpour,Thiago Zordan Malaguth,Aliakbar Akbaritabar
発行日 2025-05-09 15:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.MM パーマリンク