Retrieval Augmented Generation using Engineering Design Knowledge

要約

大規模言語モデル (LLM) は、設計プロセスにおける知識ベースのアプリケーションにより適した事実に基づく応答を生成するために、検索拡張生成 (RAG) を採用する必要があります。
特許取得済みのアーティファクトの説明から、先頭エンティティ :: 関係 :: 末尾エンティティという形式の明示的な事実を特定するデータ駆動型の方法を紹介します。
44,227 文の独自のデータセットを使用して、roBERTa Transformer ベースのシーケンス分類モデルをトレーニングします。
文内のトークンをエンティティまたは関係として分類する際、このメソッドは別の分類子を使用して、エンティティの特定のペアに対する特定の関係トークンを識別します。
線形分類器とグラフ ニューラル ネットワーク (GNN) とのパフォーマンスを比較します。どちらも BERT Transformer ベースのトークン埋め込みを組み込んで、エンティティ間の関連性と関係性を予測します。
当社では、4,870 件のファン システム関連特許にこの手法を適用し、約 300 万件の事実を構成する知識ベースを構築しています。
知識ベースを使用して、LLM を文脈化するための一般化可能な特定のドメイン知識を取得する方法を示します。

要約(オリジナル)

Large-language Models (LLMs) need to adopt Retrieval-Augmented Generation (RAG) to generate factual responses that are better suited to knowledge-based applications in the design process. We present a data-driven method to identify explicit facts of the form – head entity :: relationship :: tail entity from patented artefact descriptions. We train roBERTa Transformer-based sequence classification models using our proprietary dataset of 44,227 sentences. Upon classifying tokens in a sentence as entities or relationships, our method uses another classifier to identify specific relationship tokens for a given pair of entities. We compare the performances against linear classifiers and Graph Neural Networks (GNNs) that both incorporate BERT Transformer-based token embeddings to predict associations among the entities and relationships. We apply our method to 4,870 fan system related patents and populate a knowledge base that constitutes around 3 million facts. Using the knowledge base, we demonstrate retrieving generalisable and specific domain knowledge for contextualising LLMs.

arxiv情報

著者 L Siddharth,Jianxi Luo
発行日 2024-04-10 07:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB, cs.IR パーマリンク