Large Language Models as Batteries-Included Zero-Shot ESCO Skills Matchers

要約

労働市場のダイナミクスを理解するには、労働力に必要なスキルと労働力が保有しているスキルを正確に特定する必要があります。
この取り組みをサポートするために、自動化技術がますます開発されています。
ただし、既存のスキルが膨大であるため、求人情報からスキルを自動的に抽出することは困難です。
ESCO (ヨーロッパのスキル、能力、資格、職業) フレームワークは、13,000 を超える個人のスキルをリストしており、有益な参考資料となります。
しかし、スキルの抽出は依然として困難であり、求人情報を ESCO 分類法に正確に一致させることは未解決の問題です。
この研究では、大規模言語モデル (LLM) に基づいて職務記述書からスキルを抽出するためのエンドツーエンドのゼロショット システムを提案します。
ESCO スキル全体の合成トレーニング データを生成し、求人情報からスキルに関する言及を抽出するための分類子をトレーニングします。
また、類似性検索機能を使用してスキル候補を生成し、2 番目の LLM を使用して再ランク付けします。
合成データを使用すると、これまでの遠隔監視アプローチよりも 10 ポイント高い RP@10 スコアが達成されます。
GPT-4 再ランキングを追加すると、RP@10 が以前の方法より 22 ポイント以上向上します。
また、LLM をプロンプトするときにタスクを模擬プログラミングとしてフレーム化すると、特に弱い LLM の場合、自然言語プロンプトよりもパフォーマンスが向上する可能性があることも示します。
私たちは、スキルマッチングパイプラインの両端で大規模な言語モデルを統合する可能性を実証します。
私たちのアプローチは人間による注釈を必要とせず、ESCO に対するスキル抽出において非常に有望な結果を達成します。

要約(オリジナル)

Understanding labour market dynamics requires accurately identifying the skills required for and possessed by the workforce. Automation techniques are increasingly being developed to support this effort. However, automatically extracting skills from job postings is challenging due to the vast number of existing skills. The ESCO (European Skills, Competences, Qualifications and Occupations) framework provides a useful reference, listing over 13,000 individual skills. However, skills extraction remains difficult and accurately matching job posts to the ESCO taxonomy is an open problem. In this work, we propose an end-to-end zero-shot system for skills extraction from job descriptions based on large language models (LLMs). We generate synthetic training data for the entirety of ESCO skills and train a classifier to extract skill mentions from job posts. We also employ a similarity retriever to generate skill candidates which are then re-ranked using a second LLM. Using synthetic data achieves an RP@10 score 10 points higher than previous distant supervision approaches. Adding GPT-4 re-ranking improves RP@10 by over 22 points over previous methods. We also show that Framing the task as mock programming when prompting the LLM can lead to better performance than natural language prompts, especially with weaker LLMs. We demonstrate the potential of integrating large language models at both ends of skills matching pipelines. Our approach requires no human annotations and achieve extremely promising results on skills extraction against ESCO.

arxiv情報

著者 Benjamin Clavié,Guillaume Soulié
発行日 2023-07-07 12:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク