A comparative analysis of embedding models for patent similarity

要約

この論文は、テキストベースの特許類似性の分野に 2 つの貢献を行っています。
まず、特許類似性計算タスクにおける、さまざまな種類の特許固有の事前トレーニング済み埋め込みモデル、つまり静的単語埋め込み (word2vec モデルや doc2vec モデルなど) と文脈依存型単語埋め込み (トランスフォーマー ベースのモデルなど) のパフォーマンスを比較します。
2 番目に、特許類似性タスクにおけるさまざまなトレーニング フェーズでの Sentence Transformers (SBERT) アーキテクチャのパフォーマンスを具体的に比較します。
モデルのパフォーマンスを評価するために、特許干渉に関する情報を使用します。特許干渉とは、異なる特許出願に属する 2 つ以上の特許請求項が重複していることが特許審査官によって証明される現象です。
したがって、これらの干渉ケースを 2 つの特許間の最大の類似性の代用として使用し、異なる埋め込みモデルのパフォーマンスを評価するためのグラウンドトゥルースとして扱います。
私たちの結果は、まず、この研究で提案された事前学習済み Sentence Transformer アーキテクチャのドメイン適応である特許 SBERT-adapt-ub が、特許類似性において現在の最先端技術を上回っていることを示しています。
第 2 に、場合によっては、大規模な静的モデルのパフォーマンスが、広範なデータでトレーニングされた場合でもコンテキスト モデルのパフォーマンスと同等であることを示しています。
したがって、コンテキスト埋め込みのパフォーマンスの優位性は、実際のアーキテクチャではなく、トレーニング フェーズの実行方法に関係している可能性があると考えられます。

要約(オリジナル)

This paper makes two contributions to the field of text-based patent similarity. First, it compares the performance of different kinds of patent-specific pretrained embedding models, namely static word embeddings (such as word2vec and doc2vec models) and contextual word embeddings (such as transformers based models), on the task of patent similarity calculation. Second, it compares specifically the performance of Sentence Transformers (SBERT) architectures with different training phases on the patent similarity task. To assess the models’ performance, we use information about patent interferences, a phenomenon in which two or more patent claims belonging to different patent applications are proven to be overlapping by patent examiners. Therefore, we use these interferences cases as a proxy for maximum similarity between two patents, treating them as ground-truth to evaluate the performance of the different embedding models. Our results point out that, first, Patent SBERT-adapt-ub, the domain adaptation of the pretrained Sentence Transformer architecture proposed in this research, outperforms the current state-of-the-art in patent similarity. Second, they show that, in some cases, large static models performances are still comparable to contextual ones when trained on extensive data; thus, we believe that the superiority in the performance of contextual embeddings may not be related to the actual architecture but rather to the way the training phase is performed.

arxiv情報

著者 Grazia Sveva Ascione,Valerio Sterzi
発行日 2024-03-25 11:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク