Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety

要約

生成的大型言語モデルのアプリケーションLLMは、さまざまなドメインにわたって急速に拡大しており、ワークフローの効率と情報の検索の大幅な改善を約束しています。
ただし、危険な材料輸送などの専門的でハイステークスドメインでの実装は、正確性と信頼性の懸念のために困難です。
この研究では、3つの微調整された生成モデル、ChatGpt、Googleの頂点AI、およびORNL検索されたジェネレーションのパフォーマンスを評価します。
約40の公的に利用可能な連邦および州の規制文書を利用して、ルート計画と許可要件に関連する100の現実的なクエリを開発しました。
応答は、モデル出力間のセマンティックな類似性の定量的評価によって補完された精度、詳細、および関連性に基づいて定性的に評価されました。
結果は、Rag-Augmented Llamaモデルが頂点AIとChatGPTを大幅に上回り、時折矛盾にもかかわらず、より詳細で一般的に正確な情報を提供することを実証しました。
この研究では、輸送の安全性におけるRAGの最初の既知の応用が導入されており、信頼性を確保し、ハイステークス環境での不正確さのリスクを最小限に抑えるために、ドメイン固有の微調整と厳密な評価方法論の必要性を強調しています。

要約(オリジナル)

Applications of generative Large Language Models LLMs are rapidly expanding across various domains, promising significant improvements in workflow efficiency and information retrieval. However, their implementation in specialized, high-stakes domains such as hazardous materials transportation is challenging due to accuracy and reliability concerns. This study evaluates the performance of three fine-tuned generative models, ChatGPT, Google’s Vertex AI, and ORNL Retrieval Augmented Generation augmented LLaMA 2 and LLaMA in retrieving regulatory information essential for hazardous material transportation compliance in the United States. Utilizing approximately 40 publicly available federal and state regulatory documents, we developed 100 realistic queries relevant to route planning and permitting requirements. Responses were qualitatively rated based on accuracy, detail, and relevance, complemented by quantitative assessments of semantic similarity between model outputs. Results demonstrated that the RAG-augmented LLaMA models significantly outperformed Vertex AI and ChatGPT, providing more detailed and generally accurate information, despite occasional inconsistencies. This research introduces the first known application of RAG in transportation safety, emphasizing the need for domain-specific fine-tuning and rigorous evaluation methodologies to ensure reliability and minimize the risk of inaccuracies in high-stakes environments.

arxiv情報

著者 Chad Melton,Alex Sorokine,Steve Peterson
発行日 2025-04-09 16:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク