LLM4Jobs: Unsupervised occupation extraction and standardization leveraging Large Language Models

要約

自由記述形式の求人情報や履歴書からの職業の自動抽出と標準化は、仕事の推薦や労働市場の政策形成などのアプリケーションにとって非常に重要です。
この文書では、職業コーディングのための大規模言語モデル (LLM) の機能を利用する新しい教師なし手法である LLM4Jobs を紹介します。
LLM4Jobs は、LLM の自然言語理解と生成能力の両方を独自に活用します。
合成データセットと現実世界のデータセットでの厳密な実験に基づいて評価された結果、LLM4Jobs が教師なしの最先端のベンチマークを常に上回り、多様なデータセットと粒度にわたる多用途性を実証しました。
私たちの研究の副次的な成果として、合成データセットと現実世界のデータセットの両方を提示します。これは、この分野でのその後の研究に役立つ可能性があります。
全体として、この調査は、職業の抽出と標準化という複雑なタスクに対する現代の LLM の可能性を強調し、研究と産業の両方の状況に関連する堅牢で適応可能なフレームワークの基礎を築きます。

要約(オリジナル)

Automated occupation extraction and standardization from free-text job postings and resumes are crucial for applications like job recommendation and labor market policy formation. This paper introduces LLM4Jobs, a novel unsupervised methodology that taps into the capabilities of large language models (LLMs) for occupation coding. LLM4Jobs uniquely harnesses both the natural language understanding and generation capacities of LLMs. Evaluated on rigorous experimentation on synthetic and real-world datasets, we demonstrate that LLM4Jobs consistently surpasses unsupervised state-of-the-art benchmarks, demonstrating its versatility across diverse datasets and granularities. As a side result of our work, we present both synthetic and real-world datasets, which may be instrumental for subsequent research in this domain. Overall, this investigation highlights the promise of contemporary LLMs for the intricate task of occupation extraction and standardization, laying the foundation for a robust and adaptable framework relevant to both research and industrial contexts.

arxiv情報

著者 Nan Li,Bo Kang,Tijl De Bie
発行日 2023-09-18 12:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク