要約
エンジニアリング設計の知識は、エンティティと関係の複雑な配置を通じて自然言語テキストに具体化されます。
設計知識のオントロジー構造は、多くの場合、設計知識を抽出するための NLP 手法のパフォーマンスを制限します。
また、大規模な言語モデルは、主に常識的なテキストに基づいてトレーニングされるため、設計知識の生成や説明にはあまり役に立たない可能性があります。
この記事では、特許文献からの経験的観察に基づいて、設計知識の構成要素を示します。
私たちは 33,881 件の特許のサンプルを入手し、その文から 2,400 万件以上の事実を入力します。
このようにして入力されたファクトに存在する固有のエンティティと関係の頻度を使用して、Zipf 分布分析を実行します。
特許のサンプルから文字通りのエンティティを一般化することはできませんが、関係は主に属性 (「の」)、構造 (「内」、「との」)、目的 (「へ」、「のための」)、階層 (「含む」) を捕捉します。
‘)、例示 (‘など’)、および動作 (‘to’、’from’)。
分析の結果、エンティティと関係の半分以上がそれぞれ 64 と 24 の言語構文に一般化できる一方、階層関係には 75 の構文が含まれることが明らかになりました。
これらの構文は、エンジニアリング設計の知識の言語的基礎を表します。
各特許内の事実をナレッジ グラフに結合し、そこから統計的に過剰に表現されたサブグラフ パターンであるモチーフを発見します。
サンプル内のすべての特許にわたって、シーケンス [->…->]、集約 [->…<-]、階層 [<-...->] に単純化できる 8 つのパターンを特定しました。
工学設計の知識の構造的基礎を形成します。
私たちは、階層構造を説明しながら、サブグラフ内の抽象的なエンティティと関係を具体化するための規制指針を提案します。
これらの原則は、設計環境における知識の構築と管理を改善するために役立つ可能性があります。
要約(オリジナル)
Engineering design knowledge is embodied in natural language text through intricate placement of entities and relationships. Ontological constructs of design knowledge often limit the performances of NLP techniques to extract design knowledge. Also, large-language models could be less useful for generating and explicating design knowledge, as these are trained predominantly on common-sense text. In this article, we present the constituents of design knowledge based on empirical observations from patent documents. We obtain a sample of 33,881 patents and populate over 24 million facts from the sentences in these. We conduct Zipf distribution analyses using the frequencies of unique entities and relationships that are present in the facts thus populated. While the literal entities cannot be generalised from the sample of patents, the relationships largely capture attributes (‘of’), structure (‘in’, ‘with’), purpose (‘to’, ‘for’), hierarchy (‘include’), exemplification (‘such as’), and behaviour (‘to’, ‘from’). The analyses reveal that over half of entities and relationships could be generalised to 64 and 24 linguistic syntaxes respectively, while hierarchical relationships include 75 syntaxes. These syntaxes represent the linguistic basis of engineering design knowledge. We combine facts within each patent into a knowledge graph, from which we discover motifs that are statistically over-represented subgraph patterns. Across all patents in the sample, we identify eight patterns that could be simplified into sequence [->…->], aggregation [->…<-], and hierarchy [<-...->] that form the structural basis of engineering design knowledge. We propose regulatory precepts for concretising abstract entities and relationships within subgraphs, while also explicating hierarchical structures. These precepts could be useful for better construction and management of knowledge in a design environment.
arxiv情報
| 著者 | L. Siddharth,Jianxi Luo |
| 発行日 | 2023-12-11 13:03:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google