Breaking the HISCO Barrier: Automatic Occupational Standardization with OccCANINE

要約

この文書では、職業記述を HISCO 分類システムに自動的に変換する新しいツール OccCANINE を紹介します。
職業記述の処理と分類に伴う手作業は、間違いが発生しやすく、退屈で時間がかかります。
これを自動的に行うために既存の言語モデル (CANINE) を微調整し、以前は数日から数週間かかっていた作業を数秒から数分で実行します。
このモデルは、22 の異なるソースから提供された 1,400 万組の職業記述と 13 の異なる言語の HISCO コードでトレーニングされています。
私たちのアプローチは、90 パーセントを超える精度、再現率、正確性を備えていることが示されています。
私たちのツールは比喩的な HISCO の壁を打ち破り、このデータを経済学、経済史、およびさまざまな関連分野に幅広く適用できる職業構造の分析にすぐに利用できるようにします。

要約(オリジナル)

This paper introduces a new tool, OccCANINE, to automatically transform occupational descriptions into the HISCO classification system. The manual work involved in processing and classifying occupational descriptions is error-prone, tedious, and time-consuming. We finetune a preexisting language model (CANINE) to do this automatically, thereby performing in seconds and minutes what previously took days and weeks. The model is trained on 14 million pairs of occupational descriptions and HISCO codes in 13 different languages contributed by 22 different sources. Our approach is shown to have accuracy, recall, and precision above 90 percent. Our tool breaks the metaphorical HISCO barrier and makes this data readily available for analysis of occupational structures with broad applicability in economics, economic history, and various related disciplines.

arxiv情報

著者 Christian Møller Dahl,Torben Johansen,Christian Vedel
発行日 2024-04-02 14:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, econ.EM, I.2.7 パーマリンク