要約
特許ドメインは自然言語処理研究で注目を集めており、特許取得プロセスの合理化における実用的な応用を提供し、大規模言語モデル (LLM) に挑戦的なベンチマークを提供します。
しかし、特許文書の90%以上を占める特許明細書の生成については、これまで検討されていなかった。
私たちは、アウトラインに基づいた論文から特許への生成というタスクを導入することで、このギャップに対処します。学術論文は発明の技術仕様を提供し、アウトラインは望ましい特許構造を伝えます。
我々は、典型的な研究室の実践を反映したヒューリスティックを使用して収集された、文書概要を含む1.8kの特許と論文のペアの新しい挑戦的なベンチマークであるPAP2PATを紹介します。
現在のオープンウェイト LLM とアウトラインに基づくチャンクベースの生成を使った実験では、これらは論文の情報を効果的に利用できるものの、おそらく特許言語に固有の反復性が原因で、反復に苦労していることがわかりました。
データとコードを公開します。
要約(オリジナル)
The patent domain is gaining attention in natural language processing research, offering practical applications in streamlining the patenting process and providing challenging benchmarks for large language models (LLMs). However, the generation of the description sections of patents, which constitute more than 90% of the patent document, has not been studied to date. We address this gap by introducing the task of outline-guided paper-to-patent generation, where an academic paper provides the technical specification of the invention and an outline conveys the desired patent structure. We present PAP2PAT, a new challenging benchmark of 1.8k patent-paper pairs with document outlines, collected using heuristics that reflect typical research lab practices. Our experiments with current open-weight LLMs and outline-guided chunk-based generation show that they can effectively use information from the paper but struggle with repetitions, likely due to the inherent repetitiveness of patent language. We release our data and code.
arxiv情報
著者 | Valentin Knappich,Simon Razniewski,Anna Hätty,Annemarie Friedrich |
発行日 | 2024-10-09 15:52:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google