NNOSE: Nearest Neighbor Occupational Skill Extraction

要約

労働市場は急速に変化しており、テキストからの職業スキルの自動抽出に対する関心が高まっています。
英語のベンチマーク職務記述データセットの出現により、その多様性を適切に処理するシステムが必要になっています。
私たちは、職業スキル データセット タスクの複雑さに取り組みます。スキル抽出のために複数のデータセットを組み合わせて活用し、データセット内でめったに観察されないスキルを特定し、データセット全体のスキルの不足を克服します。
特に、データセットを統合する方法で類似のスキルを取得するために外部データストアを使用して、言語モデルの取得と拡張を調査します。
私たちが提案する手法 \textbf{N}earest \textbf{N}eighbor \textbf{O}ccupational \textbf{S}kill \textbf{E}xtraction (NNOSE) は、領域内の他のデータセットから隣接するスキルを取得することで、複数のデータセットを効果的に活用します。
データストア。
これにより、\emph{追加の微調整なしで}スキル抽出が向上します。
重要なのは、頻度の低いパターンの予測におけるパフォーマンスの向上が観察され、クロスデータセット設定ではスパン F1 で最大 30\% の大幅な向上が見られます。

要約(オリジナル)

The labor market is changing rapidly, prompting increased interest in the automatic extraction of occupational skills from text. With the advent of English benchmark job description datasets, there is a need for systems that handle their diversity well. We tackle the complexity in occupational skill datasets tasks — combining and leveraging multiple datasets for skill extraction, to identify rarely observed skills within a dataset, and overcoming the scarcity of skills across datasets. In particular, we investigate the retrieval-augmentation of language models, employing an external datastore for retrieving similar skills in a dataset-unifying manner. Our proposed method, \textbf{N}earest \textbf{N}eighbor \textbf{O}ccupational \textbf{S}kill \textbf{E}xtraction (NNOSE) effectively leverages multiple datasets by retrieving neighboring skills from other datasets in the datastore. This improves skill extraction \emph{without} additional fine-tuning. Crucially, we observe a performance gain in predicting infrequent patterns, with substantial gains of up to 30\% span-F1 in cross-dataset settings.

arxiv情報

著者 Mike Zhang,Rob van der Goot,Min-Yen Kan,Barbara Plank
発行日 2024-01-30 15:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク