要約
気候変動に関する意思決定は、長大で技術的な多言語文書内の重要な情報の複雑さとアクセスの難しさによって制約されます。
生成 AI テクノロジーは、これらの文書に含まれる情報へのアクセシビリティを向上させるための有望な手段を提供しますが、限界があります。
これらには、(1) 情報を幻覚または誤って表現する傾向、(2) 生成された出力の特性を操作または保証することの困難、および (3) 特定の技術領域でのパフォーマンスの低下が含まれます。
これらの課題に対処するために、気候関連文書に合わせてカスタマイズされたドメイン固有の次元を備えた新しい評価フレームワークを導入します。
次に、このフレームワークを適用して、取得拡張生成 (RAG) アプローチを評価し、個々の気候法と政策文書に関する質問に答えるプロトタイプ ツール内で取得と生成の品質を評価します。
さらに、気候分野におけるこれらのシステムの広範な導入と堅牢な評価を促進することを目的として、人間による注釈付きのデータセットとスケーラブルな自動評価ツールを公開しています。
私たちの調査結果は、意思決定を強化するために RAG を責任を持って導入するための重要なコンポーネントを明らかにすると同時に、そのようなシステムを安全に導入して高リスク領域のユーザーとの信頼を構築するためのユーザー エクスペリエンス (UX) の考慮事項についての洞察も提供します。
要約(オリジナル)
Climate decision making is constrained by the complexity and inaccessibility of key information within lengthy, technical, and multi-lingual documents. Generative AI technologies offer a promising route for improving the accessibility of information contained within these documents, but suffer from limitations. These include (1) a tendency to hallucinate or mis-represent information, (2) difficulty in steering or guaranteeing properties of generated output, and (3) reduced performance in specific technical domains. To address these challenges, we introduce a novel evaluation framework with domain-specific dimensions tailored for climate-related documents. We then apply this framework to evaluate Retrieval-Augmented Generation (RAG) approaches and assess retrieval- and generation-quality within a prototype tool that answers questions about individual climate law and policy documents. In addition, we publish a human-annotated dataset and scalable automated evaluation tools, with the aim of facilitating broader adoption and robust assessment of these systems in the climate domain. Our findings highlight the key components of responsible deployment of RAG to enhance decision-making, while also providing insights into user experience (UX) considerations for safely deploying such systems to build trust with users in high-risk domains.
arxiv情報
著者 | Matyas Juhasz,Kalyan Dutia,Henry Franks,Conor Delahunty,Patrick Fawbert Mills,Harrison Pim |
発行日 | 2024-10-31 13:05:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google