JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance Skill Matching

要約

分類や類似モデルの学習に合成学習データを用いる最近のスキルマッチングのアプローチは、時間とコストのかかるアノテーションの必要性を減らし、有望な結果を示している。しかし、これまでの合成データセットには、1文に1つのスキルしか含まれていない、一般的に短い文章で構成されているなどの制限がある。本論文では、JobSkapeを紹介する。JobSkapeは、これらの限界に取り組む合成データを生成するフレームワークであり、特にスキルと分類法のマッチングを強化するように設計されている。このフレームワークの中で、スキルのマッチングタスクに合わせた求人情報の包括的なオープンソースの合成データセットであるSkillSkapeを作成する。我々のデータセットが実世界のデータに似ていることを示すいくつかのオフラインメトリクスを紹介する。さらに、大規模言語モデル(LLM)を用いたスキル抽出とマッチングタスクのためのマルチステップパイプラインを提示し、既知の教師あり手法に対するベンチマークを行う。実世界のデータを用いた下流の評価結果がベースラインを上回ることを概説し、その有効性と適応性を強調する。

要約(オリジナル)

Recent approaches in skill matching, employing synthetic training data for classification or similarity model training, have shown promising results, reducing the need for time-consuming and expensive annotations. However, previous synthetic datasets have limitations, such as featuring only one skill per sentence and generally comprising short sentences. In this paper, we introduce JobSkape, a framework to generate synthetic data that tackles these limitations, specifically designed to enhance skill-to-taxonomy matching. Within this framework, we create SkillSkape, a comprehensive open-source synthetic dataset of job postings tailored for skill-matching tasks. We introduce several offline metrics that show that our dataset resembles real-world data. Additionally, we present a multi-step pipeline for skill extraction and matching tasks using large language models (LLMs), benchmarking against known supervised methodologies. We outline that the downstream evaluation results on real-world data can beat baselines, underscoring its efficacy and adaptability.

arxiv情報

著者 Antoine Magron,Anna Dai,Mike Zhang,Syrielle Montariol,Antoine Bosselut
発行日 2024-02-05 17:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク