PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims

要約

特許請求は、発明の保護範囲を定義します。
請求に曖昧さがある場合、それは特許局によって拒否されます。
米国では、これは不定(35 U.S.C {\ s} 112(b))と呼ばれ、特許適用拒否の最も頻繁な理由の1つです。
特許明確性試験のための自動方法の開発は、特許の起草と検査をより効率的にする可能性がありますが、これまでに注釈付きのデータセットは公開されていません。
不明確性の理由で注釈が付けられた自然言語処理(NLP)に関連する特許出願(NLP)からの14K米国の特許請求の新しいデータセットであるPedantic(特許明確性試験コーパス)を紹介します。
USPTOからオフィスアクションドキュメントを取得し、大規模な言語モデル(LLM)を使用して不明確性の理由を抽出する完全に自動パイプラインを使用してPedanticを構築します。
人間の検証研究では、高品質の注釈を生成する際のパイプラインの精度を確認しています。
バイナリ分類メトリックを超えて洞察を得るために、すべてのモデル引用された理由の自由形式の推論をすべての審査官引用理由と比較するLLM-As-Judge評価を実装します。
QWEN 2.5 32Bおよび72Bに基づくLLMエージェントは、根本的な理由を正しく特定しているにもかかわらず、明確さ予測のロジスティック回帰ベースラインを上回るのに苦労していることを示しています。
Pedanticは、特許AIの研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にします。
データセットとコードを公開します。

要約(オリジナル)

Patent claims define the scope of protection for an invention. If there are ambiguities in a claim, it is rejected by the patent office. In the US, this is referred to as indefiniteness (35 U.S.C {\S} 112(b)) and is among the most frequent reasons for patent application rejection. The development of automatic methods for patent definiteness examination has the potential to make patent drafting and examination more efficient, but no annotated dataset has been published to date. We introduce PEDANTIC (Patent Definiteness Examination Corpus), a novel dataset of 14k US patent claims from patent applications relating to Natural Language Processing (NLP), annotated with reasons for indefiniteness. We construct PEDANTIC using a fully automatic pipeline that retrieves office action documents from the USPTO and uses Large Language Models (LLMs) to extract the reasons for indefiniteness. A human validation study confirms the pipeline’s accuracy in generating high-quality annotations. To gain insight beyond binary classification metrics, we implement an LLM-as-Judge evaluation that compares the free-form reasoning of every model-cited reason with every examiner-cited reason. We show that LLM agents based on Qwen 2.5 32B and 72B struggle to outperform logistic regression baselines on definiteness prediction, even though they often correctly identify the underlying reasons. PEDANTIC provides a valuable resource for patent AI researchers, enabling the development of advanced examination models. We will publicly release the dataset and code.

arxiv情報

著者 Valentin Knappich,Annemarie Friedrich,Anna Hätty,Simon Razniewski
発行日 2025-05-28 10:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク