PaECTER: Patent-level Representation Learning using Citation-informed Transformers

要約

PaECTER は、公開されている、特許に特化したオープンソースのドキュメント レベルのエンコーダです。
審査官が追加した引用情報を使用して BERT for Patents を微調整し、特許文書の数値表現を生成します。
PaECTER は、特許分野で使用されている現在の最先端モデルよりも類似タスクで優れたパフォーマンスを発揮します。
より具体的には、当社のモデルは、2 つの異なるランク評価指標における特許引用予測テスト データセットにおいて、次に優れた特許固有の事前トレーニング済み言語モデル (BERT for Patents) を上回っています。
PaECTER は、25 件の無関係な特許と比較した場合、最も類似した特許が少なくとも 1 件、平均ランク 1.32 であると予測します。
PaECTER によって特許テキストから生成された数値表現は、分類、知識フローの追跡、意味的類似性検索などの下流タスクに使用できます。
意味的類似性検索は、発明者と特許審査官の両方にとって、先行技術検索のコンテキストにおいて特に関連性があります。
PaECTERはHugging Faceで入手可能です。

要約(オリジナル)

PaECTER is a publicly available, open-source document-level encoder specific for patents. We fine-tune BERT for Patents with examiner-added citation information to generate numerical representations for patent documents. PaECTER performs better in similarity tasks than current state-of-the-art models used in the patent domain. More specifically, our model outperforms the next-best patent specific pre-trained language model (BERT for Patents) on our patent citation prediction test dataset on two different rank evaluation metrics. PaECTER predicts at least one most similar patent at a rank of 1.32 on average when compared against 25 irrelevant patents. Numerical representations generated by PaECTER from patent text can be used for downstream tasks such as classification, tracing knowledge flows, or semantic similarity search. Semantic similarity search is especially relevant in the context of prior art search for both inventors and patent examiners. PaECTER is available on Hugging Face.

arxiv情報

著者 Mainak Ghosh,Sebastian Erhardt,Michael E. Rose,Erik Buunk,Dietmar Harhoff
発行日 2024-02-29 18:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク