LLM-based Extraction of Contradictions from Patents


すでに 1950 年代から TRIZ は、特許と特許によって解決される技術的矛盾が革新的な製品開発の重要なインスピレーション源であることを示しています。
しかし、TRIZ は歴史的な特許分析に基づいたヒューリスティックであり、現在の特許で増え続ける最新の技術ソリューションを利用しているわけではありません。
特許検索と分析における最近の進歩は、主に Google BERT のようなニューラル AI Transformer 言語モデルに基づく密ベクトルに焦点を当てています。
特許要約およびキーコンセプト抽出方法における研究の焦点は、それぞれ一般的な発明概念、つまり問題、解決策、発明の利点、パラメータ、矛盾などの TRIZ 概念です。
ルールベースのアプローチに続いて、文単位の分類のための微調整された BERT のような言語モデルは、最先端の発明概念抽出を表します。
この論文はさらに一歩進んで、生成大規模言語モデル (LLM)、すなわち OpenAI の GPT-4 を使用したプロンプト エンジニアリングに基づいて特許テキストから TRIZ の矛盾を抽出する方法を紹介します。
矛盾の検出、文の抽出、矛盾の要約、パラメータの抽出、および 39 の抽象的な TRIZ 工学パラメータへの割り当てはすべて、LangChain フレームワークを使用して単一のプロンプトで実行されます。
私たちの結果は、「既製」GPT-4 が既存のアプローチに代わる重大な選択肢であることを示しています。


Already since the 1950s TRIZ shows that patents and the technical contradictions they solve are an important source of inspiration for the development of innovative products. However, TRIZ is a heuristic based on a historic patent analysis and does not make use of the ever-increasing number of latest technological solutions in current patents. Because of the huge number of patents, their length, and, last but not least, their complexity there is a need for modern patent retrieval and patent analysis to go beyond keyword-oriented methods. Recent advances in patent retrieval and analysis mainly focus on dense vectors based on neural AI Transformer language models like Google BERT. They are, for example, used for dense retrieval, question answering or summarization and key concept extraction. A research focus within the methods for patent summarization and key concept extraction are generic inventive concepts respectively TRIZ concepts like problems, solutions, advantage of invention, parameters, and contradictions. Succeeding rule-based approaches, finetuned BERT-like language models for sentence-wise classification represent the state-of-the-art of inventive concept extraction. While they work comparatively well for basic concepts like problems or solutions, contradictions – as a more complex abstraction – remain a challenge for these models. This paper goes one step further, as it presents a method to extract TRIZ contradictions from patent texts based on Prompt Engineering using a generative Large Language Model (LLM), namely OpenAI’s GPT-4. Contradiction detection, sentence extraction, contradiction summarization, parameter extraction and assignment to the 39 abstract TRIZ engineering parameters are all performed in a single prompt using the LangChain framework. Our results show that ‘off-the-shelf’ GPT-4 is a serious alternative to existing approaches.


著者 Stefan Trapp,Joachim Warschat
発行日 2024-03-21 09:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク