CAREER: A Foundation Model for Labor Sequence Data

要約

労働経済学者は、注意深く構築された小規模な縦断調査データセットに予測モデルを当てはめることにより、雇用データを定期的に分析しています。
機械学習手法はこのような問題に対して有望ですが、これらの調査データセットは小さすぎて活用できません。
近年では、オンライン履歴書の大規模なデータセットも利用できるようになり、何百万人もの個人のキャリアの軌跡に関するデータが提供されています。
ただし、標準的な計量経済モデルでは、スケールを活用したり、調査データの分析に組み込んだりすることはできません。
この目的を達成するために、私たちはジョブ シーケンスの基礎モデルである CAREER を開発します。
CAREER は、まず受動的に収集された大規模な履歴書データに適合し、次に経済推論のためにより小規模でより厳選されたデータセットに微調整されます。
CAREER を履歴書からの 2,400 万件の一連の仕事のデータセットに適合させ、小規模な縦断調査データセットで調整します。
CAREER は仕事の順序を正確に予測し、広く使用されている 3 つの経済データセットに基づいた計量経済ベースラインを上回るパフォーマンスを示していることがわかりました。
さらに、CAREER を使用して他の下流変数の適切な予測を作成できることもわかりました。
たとえば、CAREER を賃金モデルに組み込むと、現在使用されている計量経済モデルよりも優れた予測が得られます。

要約(オリジナル)

Labor economists regularly analyze employment data by fitting predictive models to small, carefully constructed longitudinal survey datasets. Although machine learning methods offer promise for such problems, these survey datasets are too small to take advantage of them. In recent years large datasets of online resumes have also become available, providing data about the career trajectories of millions of individuals. However, standard econometric models cannot take advantage of their scale or incorporate them into the analysis of survey data. To this end we develop CAREER, a foundation model for job sequences. CAREER is first fit to large, passively-collected resume data and then fine-tuned to smaller, better-curated datasets for economic inferences. We fit CAREER to a dataset of 24 million job sequences from resumes, and adjust it on small longitudinal survey datasets. We find that CAREER forms accurate predictions of job sequences, outperforming econometric baselines on three widely-used economics datasets. We further find that CAREER can be used to form good predictions of other downstream variables. For example, incorporating CAREER into a wage model provides better predictions than the econometric models currently in use.

arxiv情報

著者 Keyon Vafa,Emil Palikot,Tianyu Du,Ayush Kanodia,Susan Athey,David M. Blei
発行日 2024-02-29 16:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM パーマリンク