Patent Documents to Engineering Design Knowledge Graphs

要約

設計プロセスにおける知識集約型タスクのサポートを目的として、テキスト ドキュメントから設計知識を入力するには、ナレッジ グラフ表現に組み合わせることができるトリプル (先頭エンティティ :: 関係 :: 末尾エンティティまたは h :: r :: t) の抽出が含まれます。

関係は主に存在論的または常識的な代替案から選択されるため、これらを使用して構築されたナレッジ グラフは、テキスト ドキュメントで説明されているものではなく、設計知識の近似または制限されたビューを示します。
この記事では、特許文書の文から事実 (h :: r :: t) を特定して説明するためのデータ駆動型のアプローチを紹介します。
私たちは、すべての特許分類を網羅し、特許文書セクション間の差異も捕捉する、44,227 の文と事実のデータセットを作成します。
このデータセットを使用して、トークンを分類するタガーを次のようにトレーニングします。1) すべてのエンティティ (h) と関係 (r) を識別し、2) エンティティのペア (h :: ___ :: t) の特定の関係 (r) を識別します。
これらのタガーはトランスフォーマーベースのシーケンス分類モデルに基づいて構築されていますが、トランスフォーマーベースのトークン埋め込みと言語特徴を組み込んだ、線形分類器とグラフ ニューラル ネットワークを使用するエッジ分類アプローチに対して提案手法を評価します。
提案された方法はその単純さと対象範囲をカバーしているため、あらゆる規模および種類の特許文書に適用できます。
オープンソースの Python パッケージを導入する際に、ファン システムに関連する特許文献にこの手法を適用します。
このように抽出されたナレッジ グラフから、ファクトをサブシステム レベルに指定するだけでなく、ドメイン オントロジーにどのように一般化できるかを説明します。
また、ChatGPT からの意見と比較議論しながら、ファン システムの主要な問題の知識を検索して説明することで、ナレッジ グラフ表現の重要性を強調します。

要約(オリジナル)

Aimed at supporting knowledge-intensive tasks in the design process, populating design knowledge from text documents involves the extraction of triples – head entity :: relationship :: tail entity or h :: r :: t that could be combined into a knowledge graph representation. As relationships are largely chosen from ontological or common-sense alternatives, knowledge graphs built using these depict an approximation or restricted view of design knowledge, rather than what is explicated in text document. In this article, we present a data-driven approach to identify and explicate facts (h :: r :: t) from sentences in patent documents. We create a dataset of 44,227 sentences and facts, encompassing all patent classifications while also capturing the variations among patent document sections. Using this dataset, we train taggers that classify tokens to: 1) identify all entities (h) and relationships (r) and 2) specific relationships (r) for a pair of entities (h :: ___ :: t). While these taggers are built upon transformer-based sequence classification models, we evaluate our proposed method against edge classification approaches that use linear classifiers and graph neural networks, incorporating transformer-based token embeddings and linguistic features. The simplicity and coverage of the proposed method enable its application to patent documents at any scale and variety. Upon deploying an open-source python package, we apply our method to patent documents related to fan systems. From the knowledge graphs thus extracted, we explain how facts could be generalised to domain ontologies as well as be specified to subsystem levels. We also highlight the importance of knowledge graph representations by retrieving and explicating the knowledge of key issues in fan systems, while holding a comparative discussion against opinions from ChatGPT.

arxiv情報

著者 L Siddharth,Jianxi Luo
発行日 2023-11-28 12:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB, cs.IR パーマリンク