要約
労働市場のダイナミクスを理解することは、政策立案者、雇用主、求職者にとって不可欠です。
ただし、実際のキャリアの軌跡をキャプチャする包括的なデータセットはほとんどありません。
この論文では、ベルギーのフランダースにある公共雇用サービスであるVDABが提供する匿名化された履歴書から派生した大規模な公開データセットであるJobhopを紹介します。
大規模な言語モデル(LLM)を利用して、構造化されたキャリア情報を抽出するために非構造化された履歴書データを処理し、マルチラベル分類モデルを使用して標準化されたESCO職業コードにマッピングされます。
これにより、391,000を超えるユーザー履歴書から抽出され、標準化されたESCO職業コードにマッピングされた230万件以上の作業経験の豊富なデータセットが得られ、実世界の職業移行に関する貴重な洞察を提供します。
このデータセットにより、労働市場のモビリティ、仕事の安定性、職業的移行に対するキャリア休憩の影響など、多様なアプリケーションが可能になります。
また、キャリアパス予測やその他のデータ駆動型の意思決定プロセスもサポートしています。
その可能性を説明するために、仕事の分配、キャリアの休憩、雇用移行などの重要なデータセット特性を調査し、労働市場の調査を進めるための価値を示します。
要約(オリジナル)
Understanding labor market dynamics is essential for policymakers, employers, and job seekers. However, comprehensive datasets that capture real-world career trajectories are scarce. In this paper, we introduce JobHop, a large-scale public dataset derived from anonymized resumes provided by VDAB, the public employment service in Flanders, Belgium. Utilizing Large Language Models (LLMs), we process unstructured resume data to extract structured career information, which is then mapped to standardized ESCO occupation codes using a multi-label classification model. This results in a rich dataset of over 2.3 million work experiences, extracted from and grouped into more than 391,000 user resumes and mapped to standardized ESCO occupation codes, offering valuable insights into real-world occupational transitions. This dataset enables diverse applications, such as analyzing labor market mobility, job stability, and the effects of career breaks on occupational transitions. It also supports career path prediction and other data-driven decision-making processes. To illustrate its potential, we explore key dataset characteristics, including job distributions, career breaks, and job transitions, demonstrating its value for advancing labor market research.
arxiv情報
著者 | Iman Johary,Raphael Romero,Alexandru C. Mara,Tijl De Bie |
発行日 | 2025-05-12 15:22:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google