Domain-specific ChatBots for Science using Embeddings

要約

大規模言語モデル (LLM) は、無数のタスクを処理できる強力な機械学習システムとして登場しました。
これらのシステムの調整されたバージョンは、多種多様なトピックに関するユーザーの質問に応答し、有益で創造的な応答を提供できるチャットボットに生まれ変わりました。
しかし、科学分野における厳密さと情報源のニーズとは対照的に、これらの分野における知識が不完全であるため、物理科学研究への応用は依然として限定的です。
ここでは、既存のメソッドとソフトウェア ツールを簡単に組み合わせて、ドメイン固有のチャットボットを生成する方法を示します。
このシステムは既存の形式で科学文書を取り込み、返信を作成する際にテキスト埋め込みルックアップを使用してドメイン固有のコンテキスト情報を LLM に提供します。
同様に、既存の画像埋め込み手法が出版図全体の検索と取得に使用できることを示します。
これらの結果は、LLM が物理科学者による研究活動の加速に使用するのにすでに適していることを裏付けています。

要約(オリジナル)

Large language models (LLMs) have emerged as powerful machine-learning systems capable of handling a myriad of tasks. Tuned versions of these systems have been turned into chatbots that can respond to user queries on a vast diversity of topics, providing informative and creative replies. However, their application to physical science research remains limited owing to their incomplete knowledge in these areas, contrasted with the needs of rigor and sourcing in science domains. Here, we demonstrate how existing methods and software tools can be easily combined to yield a domain-specific chatbot. The system ingests scientific documents in existing formats, and uses text embedding lookup to provide the LLM with domain-specific contextual information when composing its reply. We similarly demonstrate that existing image embedding methods can be used for search and retrieval across publication figures. These results confirm that LLMs are already suitable for use by physical scientists in accelerating their research efforts.

arxiv情報

著者 Kevin G. Yager
発行日 2023-08-24 20:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク