Extreme Multi-Label Skill Extraction Training using Large Language Models

要約

オンライン求人広告は、スキル要件に関する貴重な情報源として機能し、労働市場分析や電子採用プロセスにおいて重要な役割を果たします。
このような広告は通常、フリー テキストでフォーマットされているため、広告を自動的に処理するには自然言語処理 (NLP) テクノロジーが必要です。
私たちは、スキル (文字通りに言及された、または暗黙的に記述されたもの) を検出し、それらを大規模なスキル オントロジーにリンクするタスクに特に焦点を当てており、これを極端なマルチラベル分類 (XMLC) の困難なケースにしています。
この特定の XMLC タスクに使用できる大規模なラベル付き (トレーニング) データセットがないことを考慮して、一般的な大規模言語モデル (LLM) を活用する手法を提案します。
スキル抽出用に正確で完全に合成されたラベル付きデータセットを生成するための費用対効果の高いアプローチについて説明し、このタスクで効果的であることが証明された対照的な学習戦略を提示します。
3 つのスキル抽出ベンチマークにわたる結果は、文字どおりの一致による遠隔監視のみに依存した以前に公開された結果と比較して、\textit{R-Precision@5} が 15 ~ 25 パーセント ポイント一貫して増加していることを示しています。

要約(オリジナル)

Online job ads serve as a valuable source of information for skill requirements, playing a crucial role in labor market analysis and e-recruitment processes. Since such ads are typically formatted in free text, natural language processing (NLP) technologies are required to automatically process them. We specifically focus on the task of detecting skills (mentioned literally, or implicitly described) and linking them to a large skill ontology, making it a challenging case of extreme multi-label classification (XMLC). Given that there is no sizable labeled (training) dataset are available for this specific XMLC task, we propose techniques to leverage general Large Language Models (LLMs). We describe a cost-effective approach to generate an accurate, fully synthetic labeled dataset for skill extraction, and present a contrastive learning strategy that proves effective in the task. Our results across three skill extraction benchmarks show a consistent increase of between 15 to 25 percentage points in \textit{R-Precision@5} compared to previously published results that relied solely on distant supervision through literal matches.

arxiv情報

著者 Jens-Joris Decorte,Severine Verlinden,Jeroen Van Hautte,Johannes Deleu,Chris Develder,Thomas Demeester
発行日 2023-07-20 11:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク