W2KPE: Keyphrase Extraction with Word-Word Relation

要約

このペーパーでは、ICASSP 2023 MUG チャレンジ トラック 4、キーフレーズ抽出への提出について説明します。これは、会議資料から会議のテーマに最も関連するキーフレーズを抽出することを目的としています。
課題を単一クラスの名前付きエンティティ認識タスクとしてモデル化し、課題のパフォーマンスを向上させるための手法を開発しました。データの前処理では、単語の分割後に分割キーフレーズをエンコードします。
さらに、複数の前処理された文を 1 つのセグメントに融合することで、モデルが一度に受け入れることができる入力情報の量を増やします。
キーフレーズのまばらさに対処するために、損失関数をマルチクラス焦点損失に置き換えます。
さらに、キーフレーズの各出現をスコアリングし、スコアに合わせてキーフレーズをランク付けするための追加の出力レイヤーを追加します。
単語セグメンテーション ツール、事前トレーニング済みの埋め込みモデル、および対応するハイパーパラメーターの最適な組み合わせを見つけるために、徹底的な評価が実行されます。
これらの提案により、最終的なテスト セットで 45.04 のスコアを獲得しました。

要約(オリジナル)

This paper describes our submission to ICASSP 2023 MUG Challenge Track 4, Keyphrase Extraction, which aims to extract keyphrases most relevant to the conference theme from conference materials. We model the challenge as a single-class Named Entity Recognition task and developed techniques for better performance on the challenge: For the data preprocessing, we encode the split keyphrases after word segmentation. In addition, we increase the amount of input information that the model can accept at one time by fusing multiple preprocessed sentences into one segment. We replace the loss function with the multi-class focal loss to address the sparseness of keyphrases. Besides, we score each appearance of keyphrases and add an extra output layer to fit the score to rank keyphrases. Exhaustive evaluations are performed to find the best combination of the word segmentation tool, the pre-trained embedding model, and the corresponding hyperparameters. With these proposals, we scored 45.04 on the final test set.

arxiv情報

著者 Wen Cheng,Shichen Dong,Wei Wang
発行日 2023-03-22 15:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク