VacancySBERT: the approach for representation of titles and skills for semantic similarity search in the recruitment domain

要約

この論文は、HR ドメインに適用される深層学習セマンティック検索アルゴリズムに焦点を当てています。
この記事の目的は、求人広告で言及されているスキルとタイトルを結び付けるためにシャムのネットワークをトレーニングするための新しいアプローチを開発することです。
タイトル正規化プロセスは、分類アプローチまたは類似性比較アプローチのいずれかに基づくことができることが示されています。
分類アルゴリズムはサンプルを事前定義されたカテゴリのセットに分類しようとしますが、類似性検索アルゴリズムは、事前定義されたクラスやラベルを必要とせずに、特定のクエリ サンプルに類似したサンプルを見つけるように設計されているため、より柔軟なアプローチを採用します。
この記事では、タイトル正規化の候補を見つけるために意味的類似性検索が使用されています。
事前にトレーニングされた言語モデルは、共起情報に基づいて肩書きとスキルを一致させるように学習しながら適応されます。
この研究の目的のために、モデルのトレーニング用に 500 億の役職と説明のペアが収集され、3 万 3,000 個の役職と説明と正規化された役職のトリプレットが収集されました。正規化された役職は、テスト目的で求人広告作成者によって手動で選択されました。
ベースラインとして、FastText、BERT、SentenceBert、および JobBert が使用されています。
設計されたアルゴリズムの精度の指標として、上位 1 位、5 位、および 10 位のモデルの提案における再現率が挙げられます。
新しいトレーニング目標により、他の汎用および特定のテキスト エンコーダーと比較して大幅な改善が達成されることが示されています。
この記事では、タイトルをスタンドアロンの文字列として処理する設定と、推論中の追加機能として含まれるスキルを使用する 2 つの設定が使用され、その結果が比較されました。
VacancySBERT と VacancySBERT (スキルあり) を使用すると、それぞれ 10% と 21.5% の改善が達成されました。
このベンチマークは、この分野でのさらなる研究を促進するためにオープンソースとして開発されました。

要約(オリジナル)

The paper focuses on deep learning semantic search algorithms applied in the HR domain. The aim of the article is developing a novel approach to training a Siamese network to link the skills mentioned in the job ad with the title. It has been shown that the title normalization process can be based either on classification or similarity comparison approaches. While classification algorithms strive to classify a sample into predefined set of categories, similarity search algorithms take a more flexible approach, since they are designed to find samples that are similar to a given query sample, without requiring pre-defined classes and labels. In this article semantic similarity search to find candidates for title normalization has been used. A pre-trained language model has been adapted while teaching it to match titles and skills based on co-occurrence information. For the purpose of this research fifty billion title-descriptions pairs had been collected for training the model and thirty three thousand title-description-normalized title triplets, where normalized job title was picked up manually by job ad creator for testing purposes. As baselines FastText, BERT, SentenceBert and JobBert have been used. As a metric of the accuracy of the designed algorithm is Recall in top one, five and ten model’s suggestions. It has been shown that the novel training objective lets it achieve significant improvement in comparison to other generic and specific text encoders. Two settings with treating titles as standalone strings, and with included skills as additional features during inference have been used and the results have been compared in this article. Improvements by 10% and 21.5% have been achieved using VacancySBERT and VacancySBERT (with skills) respectively. The benchmark has been developed as open-source to foster further research in the area.

arxiv情報

著者 Maiia Bocharova,Eugene Malakhov,Vitaliy Mezhuyev
発行日 2023-07-31 13:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL パーマリンク