Named entity recognition in resumes

要約

固有表現認識 (NER) は、さまざまな文書やテキストから名前や日付などの情報を抽出するために使用されます。
履歴書をフィルタリングするには、履歴書から学歴や職歴の情報を抽出することが重要です。
履歴書のすべての情報を企業のシステムに手動で入力する必要があるという事実を考慮すると、このプロセスを自動化することで企業の時間を節約できます。
本研究では、IT分野の履歴書に焦点を当て、深層学習ベースの半自動固有表現認識システムを実装しました。
まず、IT 関連の 5 つの異なる分野の従業員の履歴書に注釈が付けられています。
6 つのトランスフォーマーベースの事前トレーニング済みモデルは、注釈付きデータを使用して固有表現認識問題に適応されています。
これらのモデルは、自然言語処理分野で人気のあるモデルの中から選ばれたものです。
取得されたシステムは、都市、日付、学位、専攻卒業資格、役職、言語、国、およびスキルの 8 つの異なるエンティティ タイプを認識できます。
実験で使用されたモデルは、ミクロ、マクロ、および加重 F1 スコアを使用して比較され、メソッドのパフォーマンスが評価されました。
テスト セットのこれらのスコアを考慮すると、最良のミクロおよび重み付け F1 スコアは RoBERTa によって取得され、最良のマクロ F1 スコアは Electra モデルによって取得されます。

要約(オリジナル)

Named entity recognition (NER) is used to extract information from various documents and texts such as names and dates. It is important to extract education and work experience information from resumes in order to filter them. Considering the fact that all information in a resume has to be entered to the companys system manually, automatizing this process will save time of the companies. In this study, a deep learning-based semi-automatic named entity recognition system has been implemented with a focus on resumes in the field of IT. Firstly, resumes of employees from five different IT related fields has been annotated. Six transformer based pre-trained models have been adapted to named entity recognition problem using the annotated data. These models have been selected among popular models in the natural language processing field. The obtained system can recognize eight different entity types which are city, date, degree, diploma major, job title, language, country and skill. Models used in the experiments are compared using micro, macro and weighted F1 scores and the performance of the methods was evaluated. Taking these scores into account for test set the best micro and weighted F1 score is obtained by RoBERTa and the best macro F1 score is obtained by Electra model.

arxiv情報

著者 Ege Kesim,Aysu Deliahmetoglu
発行日 2023-06-22 17:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク