要約
スキルの抽出には、求人情報や履歴書などの文書に記載されているスキルや資格を特定することが含まれます。
このタスクは通常、BIO タグを使用した配列ラベル付けアプローチを使用して教師付きモデルをトレーニングすることで取り組みます。
ただし、手動で注釈を付けたデータに依存すると、そのようなアプローチの一般化可能性が制限されます。
さらに、共通の BIO 設定により、複雑なスキル パターンをキャプチャし、曖昧な言及を処理するモデルの能力が制限されます。
このペーパーでは、6 つの統一されたスキル抽出データセットのベンチマークに基づいて、これらの課題を克服するためのインコンテキスト学習の使用について検討します。
私たちのアプローチは、大規模言語モデル (LLM) の数回の学習機能を活用して、文からスキルを特定して抽出します。
LLM は、パフォーマンスの点で従来の教師ありモデルと同等ではないにもかかわらず、スキル抽出タスクにおける構文的に複雑なスキルの言及をより適切に処理できることを示します。
要約(オリジナル)
Skill Extraction involves identifying skills and qualifications mentioned in documents such as job postings and resumes. The task is commonly tackled by training supervised models using a sequence labeling approach with BIO tags. However, the reliance on manually annotated data limits the generalizability of such approaches. Moreover, the common BIO setting limits the ability of the models to capture complex skill patterns and handle ambiguous mentions. In this paper, we explore the use of in-context learning to overcome these challenges, on a benchmark of 6 uniformized skill extraction datasets. Our approach leverages the few-shot learning capabilities of large language models (LLMs) to identify and extract skills from sentences. We show that LLMs, despite not being on par with traditional supervised models in terms of performance, can better handle syntactically complex skill mentions in skill extraction tasks.
arxiv情報
著者 | Khanh Cao Nguyen,Mike Zhang,Syrielle Montariol,Antoine Bosselut |
発行日 | 2024-02-06 09:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google