FACTS About Building Retrieval Augmented Generation-based Chatbots

要約

生成 AI を活用したエンタープライズ チャットボットは、従業員の生産性を向上させる主要なアプリケーションとして台頭しています。
これらのチャットボットを構築するには、検索拡張生成 (RAG)、大規模言語モデル (LLM)、および Langchain や Llamaindex などのオーケストレーション フレームワークが不可欠です。
ただし、効果的なエンタープライズ チャットボットの作成は困難であり、細心の注意を払った RAG パイプライン エンジニアリングが必要です。
これには、埋め込みと LLM の微調整、ベクトル データベースからのドキュメントの抽出、クエリの言い換え、結果の再ランキング、プロンプトの設計、ドキュメント アクセス制御の順守、参照を含む簡潔な応答の提供、個人情報の保護、オーケストレーション エージェントの構築が含まれます。
IT/HR のメリット、財務上の利益、および一般的なコンテンツ用の 3 つの NVIDIA チャットボットの経験に基づいて、RAG ベースのチャットボットを構築するためのフレームワークを紹介します。
私たちの貢献は 3 つあります。FACTS フレームワーク (鮮度、アーキテクチャ、コスト、テスト、セキュリティ) の導入、15 個の RAG パイプライン制御ポイントの提示、大規模 LLM と小規模 LLM 間の精度と遅延のトレードオフに関する経験的結果の提供です。
私たちの知る限り、これは、安全なエンタープライズ グレードのチャットボットを構築するための要素とソリューションの全体像を提供する、この種の最初の論文です。」

要約(オリジナル)

Enterprise chatbots, powered by generative AI, are emerging as key applications to enhance employee productivity. Retrieval Augmented Generation (RAG), Large Language Models (LLMs), and orchestration frameworks like Langchain and Llamaindex are crucial for building these chatbots. However, creating effective enterprise chatbots is challenging and requires meticulous RAG pipeline engineering. This includes fine-tuning embeddings and LLMs, extracting documents from vector databases, rephrasing queries, reranking results, designing prompts, honoring document access controls, providing concise responses, including references, safeguarding personal information, and building orchestration agents. We present a framework for building RAG-based chatbots based on our experience with three NVIDIA chatbots: for IT/HR benefits, financial earnings, and general content. Our contributions are three-fold: introducing the FACTS framework (Freshness, Architectures, Cost, Testing, Security), presenting fifteen RAG pipeline control points, and providing empirical results on accuracy-latency tradeoffs between large and small LLMs. To the best of our knowledge, this is the first paper of its kind that provides a holistic view of the factors as well as solutions for building secure enterprise-grade chatbots.’

arxiv情報

著者 Rama Akkiraju,Anbang Xu,Deepak Bora,Tan Yu,Lu An,Vishal Seth,Aaditya Shukla,Pritam Gundecha,Hridhay Mehta,Ashwin Jha,Prithvi Raj,Abhinav Balasubramanian,Murali Maram,Guru Muthusamy,Shivakesh Reddy Annepally,Sidney Knowles,Min Du,Nick Burnett,Sean Javiya,Ashok Marannan,Mamta Kumari,Surbhi Jha,Ethan Dereszenski,Anupam Chakraborty,Subhash Ranjan,Amina Terfai,Anoop Surya,Tracey Mercer,Vinodh Kumar Thanigachalam,Tamar Bar,Sanjana Krishnan,Samy Kilaru,Jasmine Jaksic,Nave Algarici,Jacob Liberman,Joey Conway,Sonu Nayyar,Justin Boitano
発行日 2024-07-10 17:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク