Extracting domain-specific terms using contextual word embeddings

要約

自動用語抽出とは、ドメイン固有のテキストから意味のある用語を抽出するタスクを指します。
このペーパーでは、用語抽出に対する新しい機械学習アプローチを提案します。これは、従来の用語抽出システムの特徴と、文脈的単語の埋め込みから派生した新しいコンテキスト機能を組み合わせています。
スピーチパターンの事前定義されたリストを使用する代わりに、まずスロベニア語用の新しい用語と記録されたコーパスRSDO5を分析し、ターム候補の選択のための一連のルールを考案し、統計的、言語的、コンテキストベースの機能を生成します。
サポートベクトルマシンアルゴリズムを使用して分類モデルをトレーニングし、RSDO5コーパスの4つのドメイン(バイオメカニクス、言語学、化学、獣医)で評価し、結果をスロベニア語の最先端の用語抽出アプローチと比較します。

私たちのアプローチは、以前の最先端のF1スコアに関して大幅な改善を提供します。これは、文脈的な単語の埋め込みが用語抽出を改善するのに役立つことを証明しています。

要約(オリジナル)

Automated terminology extraction refers to the task of extracting meaningful terms from domain-specific texts. This paper proposes a novel machine learning approach to terminology extraction, which combines features from traditional term extraction systems with novel contextual features derived from contextual word embeddings. Instead of using a predefined list of part-of-speech patterns, we first analyse a new term-annotated corpus RSDO5 for the Slovenian language and devise a set of rules for term candidate selection and then generate statistical, linguistic and context-based features. We use a support-vector machine algorithm to train a classification model, evaluate it on the four domains (biomechanics, linguistics, chemistry, veterinary) of the RSDO5 corpus and compare the results with state-of-art term extraction approaches for the Slovenian language. Our approach provides significant improvements in terms of F1 score over the previous state-of-the-art, which proves that contextual word embeddings are valuable for improving term extraction.

arxiv情報

著者 Andraž Repar,Nada Lavrač,Senja Pollak
発行日 2025-02-24 16:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク