Comparative Analysis of Encoder-Based NER and Large Language Models for Skill Extraction from Russian Job Vacancies

要約

労働市場は急速な変化を遂げており、求職者の需要が高まり、求人数も急増しています。
雇用主の要件はさまざまであり、主要なスキルが省略されているため、職務内容から必須のスキルとコンピテンシーを特定することは困難です。
この研究では、ロシアの求人情報からスキルを抽出するために、エンコーダに基づく従来の固有表現認識 (NER) 手法と大規模言語モデル (LLM) を比較することで、これらの課題に取り組んでいます。
トレーニングには 4,000 件の求人、テストには 1,472 件の求人のラベル付きデータセットを使用して、両方のアプローチのパフォーマンスが評価されます。
結果は、従来の NER モデル、特に調整された DeepPavlov RuBERT NER モデルが、精度、精度、再現率、推論時間などのさまざまな指標にわたって LLM よりも優れていることを示しています。
この調査結果は、従来の NER モデルがスキル抽出のためのより効果的かつ効率的なソリューションを提供し、職務要件の明確性を高め、求職者が自分の資格を雇用主の期待と一致させるのに役立つことを示唆しています。
この研究は、自然言語処理 (NLP) の分野と、特に英語以外の文脈における労働市場におけるその応用に貢献します。

要約(オリジナル)

The labor market is undergoing rapid changes, with increasing demands on job seekers and a surge in job openings. Identifying essential skills and competencies from job descriptions is challenging due to varying employer requirements and the omission of key skills. This study addresses these challenges by comparing traditional Named Entity Recognition (NER) methods based on encoders with Large Language Models (LLMs) for extracting skills from Russian job vacancies. Using a labeled dataset of 4,000 job vacancies for training and 1,472 for testing, the performance of both approaches is evaluated. Results indicate that traditional NER models, especially DeepPavlov RuBERT NER tuned, outperform LLMs across various metrics including accuracy, precision, recall, and inference time. The findings suggest that traditional NER models provide more effective and efficient solutions for skill extraction, enhancing job requirement clarity and aiding job seekers in aligning their qualifications with employer expectations. This research contributes to the field of natural language processing (NLP) and its application in the labor market, particularly in non-English contexts.

arxiv情報

著者 Nikita Matkin,Aleksei Smirnov,Mikhail Usanin,Egor Ivanov,Kirill Sobyanin,Sofiia Paklina,Petr Parshakov
発行日 2024-07-29 09:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク