Reference-Aligned Retrieval-Augmented Question Answering over Heterogeneous Proprietary Documents

要約

独自の企業文書には豊富なドメイン固有の知識が含まれていますが、従業員が必要なときに適切な情報にアクセスすることでも、圧倒的なボリュームと混乱した構造により、それらの圧倒的なボリュームと混乱した構造が困難になります。
たとえば、自動車産業では、車両の衝突衝突テストがそれぞれ数十万ドルの費用がかかり、非常に詳細な文書を作成します。
ただし、意思決定中に関連するコンテンツを取得することは、材料の規模と複雑さのために時間がかかり続けています。
検索された生成(RAG)ベースの質問応答(QA)システムは有望なソリューションを提供しますが、内部RAG-QAシステムの構築はいくつかの課題を提起します。
これらに対処するために、次のことで構成される内部エンタープライズの使用のためのRAG-QAフレームワークを提案します。(1)生のマルチモーダルドキュメントを構造化されたコーパスとQAペアに変換するデータパイプライン、(2)完全にオンプレミス、プライバシーを提供するアーキテクチャ、および(3)軽量の参照をサポートすることに応答することを示唆しています。
自動車ドメインに適用されるこのシステムは、人間とLLMの両方の裁判官からの1-5スケールの評価に基づいて、事実上の正確性(+1.79、+1.94)、情報性(+1.33、+1.16)、および非RAGベースラインにわたって有用性(+1.08、+1.67)を改善します。

要約(オリジナル)

Proprietary corporate documents contain rich domain-specific knowledge, but their overwhelming volume and disorganized structure make it difficult even for employees to access the right information when needed. For example, in the automotive industry, vehicle crash-collision tests, each costing hundreds of thousands of dollars, produce highly detailed documentation. However, retrieving relevant content during decision-making remains time-consuming due to the scale and complexity of the material. While Retrieval-Augmented Generation (RAG)-based Question Answering (QA) systems offer a promising solution, building an internal RAG-QA system poses several challenges: (1) handling heterogeneous multi-modal data sources, (2) preserving data confidentiality, and (3) enabling traceability between each piece of information in the generated answer and its original source document. To address these, we propose a RAG-QA framework for internal enterprise use, consisting of: (1) a data pipeline that converts raw multi-modal documents into a structured corpus and QA pairs, (2) a fully on-premise, privacy-preserving architecture, and (3) a lightweight reference matcher that links answer segments to supporting content. Applied to the automotive domain, our system improves factual correctness (+1.79, +1.94), informativeness (+1.33, +1.16), and helpfulness (+1.08, +1.67) over a non-RAG baseline, based on 1-5 scale ratings from both human and LLM judge.

arxiv情報

著者 Nayoung Choi,Grace Byun,Andrew Chung,Ellie S. Paek,Shinsun Lee,Jinho D. Choi
発行日 2025-06-16 14:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, H.3 パーマリンク