要約
キーフレーズ抽出は、ソース文書から重要な情報を含む一連のフレーズを抽出することを目的とした、自然言語処理および情報検索における基本的なタスクです。
重要なキーフレーズを特定することは、キーフレーズ抽出タスクの中心的なコンポーネントであり、その主な課題は、情報を包括的に表現し、重要性を正確に識別する方法です。
この論文では、これらの問題に対処するために、同じ双曲空間でフレーズと文書を表現し、それぞれの重要なスコアとしてポアンカレ距離を介してフレーズと文書の関連性を明示的に推定する新しい双曲線マッチング モデル (HyperMatch) を設計します。
フレーズ。
具体的には、階層的な構文および意味構造の情報を取得するために、HyperMatch は RoBERTa の複数の層の隠れた表現を利用し、適応混合層を介してそれらを単語埋め込みとして統合します。
一方、HyperMatch は、文書に隠された階層構造を考慮して、双曲線フレーズエンコーダーと双曲線文書エンコーダーを介して、フレーズと文書の両方を同じ双曲線空間に埋め込みます。
この戦略は、双曲空間の優れた特性により、語句と文書の関連性の推定をさらに強化できます。
この設定では、キーフレーズ抽出をマッチング問題として捉え、双曲線マージンに基づく三重項損失を最小限に抑えることで効果的に実装できます。
6 つのベンチマークについて広範な実験が実施され、HyperMatch が最先端のベースラインを上回るパフォーマンスを示していることが実証されました。
要約(オリジナル)
Keyphrase extraction is a fundamental task in natural language processing and information retrieval that aims to extract a set of phrases with important information from a source document. Identifying important keyphrase is the central component of the keyphrase extraction task, and its main challenge is how to represent information comprehensively and discriminate importance accurately. In this paper, to address these issues, we design a new hyperbolic matching model (HyperMatch) to represent phrases and documents in the same hyperbolic space and explicitly estimate the phrase-document relevance via the Poincar\’e distance as the important score of each phrase. Specifically, to capture the hierarchical syntactic and semantic structure information, HyperMatch takes advantage of the hidden representations in multiple layers of RoBERTa and integrates them as the word embeddings via an adaptive mixing layer. Meanwhile, considering the hierarchical structure hidden in the document, HyperMatch embeds both phrases and documents in the same hyperbolic space via a hyperbolic phrase encoder and a hyperbolic document encoder. This strategy can further enhance the estimation of phrase-document relevance due to the good properties of hyperbolic space. In this setting, the keyphrase extraction can be taken as a matching problem and effectively implemented by minimizing a hyperbolic margin-based triplet loss. Extensive experiments are conducted on six benchmarks and demonstrate that HyperMatch outperforms the state-of-the-art baselines.
arxiv情報
著者 | Mingyang Song,Yi Feng,Liping Jing |
発行日 | 2023-12-21 11:30:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google