Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs

要約

長くて非常に複雑な技術テキストを扱うことは、大規模な言語モデル(LLMS)にとって課題です。これは、特許制約などの高価で時間型のプロセスをサポートする可能性を展開する必要があります。
特許内では、説明は文書の90%以上を平均して構成します。
しかし、その自動生成は未解決のままです。
特許出願を起草する場合、特許弁護士は通常、発明報告書(IRS)を受け取りますが、これは通常機密であり、LLMがサポートする特許起動に関する研究を妨げます。
多くの場合、Prepublication Research PapersはIRSとして機能します。
この二重性を活用して、同じ発明を説明する1.8K特許紙のペアで構成される特許制約のためのオープンで現実的なベンチマークであるPap2PATを構築します。
複雑なLongdocument Patent Generationタスクに対処するために、発明の仕様として研究論文を使用して、チャンクベースのアウトラインガイド付き生成を提案します。
PAP2PATと人間のケーススタディを使用した当社の広範な評価は、LLMSが論文からの情報を効果的に活用できることを示していますが、それでも必要なレベルの詳細を提供するのに苦労しています。
微調整は、より多くの特許スタイルの言語につながりますが、より多くの幻覚にもつながります。
データとコードhttps://github.com/boschresearch/pap2patをリリースします。

要約(オリジナル)

Dealing with long and highly complex technical text is a challenge for Large Language Models (LLMs), which still have to unfold their potential in supporting expensive and timeintensive processes like patent drafting. Within patents, the description constitutes more than 90% of the document on average. Yet, its automatic generation remains understudied. When drafting patent applications, patent attorneys typically receive invention reports (IRs), which are usually confidential, hindering research on LLM-supported patent drafting. Often, prepublication research papers serve as IRs. We leverage this duality to build PAP2PAT, an open and realistic benchmark for patent drafting consisting of 1.8k patent-paper pairs describing the same inventions. To address the complex longdocument patent generation task, we propose chunk-based outline-guided generation using the research paper as invention specification. Our extensive evaluation using PAP2PAT and a human case study show that LLMs can effectively leverage information from the paper, but still struggle to provide the necessary level of detail. Fine-tuning leads to more patent-style language, but also to more hallucination. We release our data and code https://github.com/boschresearch/Pap2Pat.

arxiv情報

著者 Valentin Knappich,Simon Razniewski,Anna Hätty,Annemarie Friedrich
発行日 2025-06-18 15:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク