要約
キーワード抽出には、文書内で最も説明的な単語の特定が含まれ、大量の多様なテキスト データの自動分類と要約が可能になります。
現実世界のキーワード検出では、多くの場合、多様なコンテンツの処理が必要であるという洞察に基づいて、専門家混合 (MoE) 技術に基づく新しい教師ありキーワード抽出アプローチを提案します。
MoE は学習可能なルーティング サブネットワークを使用して専門の専門家に情報を送り、専門家が入力空間の異なる領域に特化できるようにします。
教師ありキーワード抽出のための専門専門家の混合である SEKE は、バックボーン モデルとして DeBERTa を使用し、専門家がリカレント ニューラル ネットワーク (RNN) と統合することで各トークンに注意を払う MoE フレームワークに基づいて構築されており、
コーパスが小さく、トレーニング データが不足しているため専門化が困難です。
MoE フレームワークは、個々の専門家の内部の仕組みについての洞察も提供し、アプローチの説明可能性を高めます。
複数の英語のデータセットで SEKE のベンチマークを行い、強力な教師ありベースラインおよび教師なしベースラインと比較して最先端のパフォーマンスを達成します。
私たちの分析では、データのサイズとタイプに応じて、専門家が句読点、ストップワード、品詞、名前付きエンティティなど、個別の構文および意味コンポーネントに特化していることが明らかになりました。
コードはhttps://github.com/matejMartinc/SEKE_keyword_extractionから入手できます。
要約(オリジナル)
Keyword extraction involves identifying the most descriptive words in a document, allowing automatic categorisation and summarisation of large quantities of diverse textual data. Relying on the insight that real-world keyword detection often requires handling of diverse content, we propose a novel supervised keyword extraction approach based on the mixture of experts (MoE) technique. MoE uses a learnable routing sub-network to direct information to specialised experts, allowing them to specialize in distinct regions of the input space. SEKE, a mixture of Specialised Experts for supervised Keyword Extraction, uses DeBERTa as the backbone model and builds on the MoE framework, where experts attend to each token, by integrating it with a recurrent neural network (RNN), to allow successful extraction even on smaller corpora, where specialisation is harder due to lack of training data. The MoE framework also provides an insight into inner workings of individual experts, enhancing the explainability of the approach. We benchmark SEKE on multiple English datasets, achieving state-of-the-art performance compared to strong supervised and unsupervised baselines. Our analysis reveals that depending on data size and type, experts specialize in distinct syntactic and semantic components, such as punctuation, stopwords, parts-of-speech, or named entities. Code is available at: https://github.com/matejMartinc/SEKE_keyword_extraction
arxiv情報
著者 | Matej Martinc,Hanh Thi Hong Tran,Senja Pollak,Boshko Koloski |
発行日 | 2024-12-18 17:34:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google