要約
セーフティクリティカルソフトウェアの評価には、複雑な規制フレームワークに対するロバストな評価が必要であり、従来は手作業による評価が限界であった。本論文では、セーフティクリティカルなコンプライアンス評価のための大規模言語モデル(LLM)の機能を強化する新しいアプローチであるDocument Retrieval-Augmented Fine-Tuning (DRAFT)を紹介する。DRAFTは、既存のRAG(Retrieval-Augmented Generation)技術をベースに、ソフトウェア文書と適用可能な参照規格の両方に同時にアクセスする二重検索アーキテクチャに対応する新しい微調整フレームワークを導入している。DRAFTを微調整するために、我々は半自動データセット生成手法を開発し、実世界の評価シナリオを忠実に反映させながら、意味のあるディストラクタを持つ関連文書の数を変化させる。GPT-4o-miniを用いた実験では、ベースラインモデルと比較して正答率が7%向上し、証拠処理、応答構造、およびドメイン固有の推論が質的に改善されたことが実証された。DRAFTは、規制の領域で不可欠な透明性と証拠に基づく推論を維持しながら、コンプライアンス評価システムを改善する実用的なアプローチを示している。
要約(オリジナル)
Safety critical software assessment requires robust assessment against complex regulatory frameworks, a process traditionally limited by manual evaluation. This paper presents Document Retrieval-Augmented Fine-Tuning (DRAFT), a novel approach that enhances the capabilities of a large language model (LLM) for safety-critical compliance assessment. DRAFT builds upon existing Retrieval-Augmented Generation (RAG) techniques by introducing a novel fine-tuning framework that accommodates our dual-retrieval architecture, which simultaneously accesses both software documentation and applicable reference standards. To fine-tune DRAFT, we develop a semi-automated dataset generation methodology that incorporates variable numbers of relevant documents with meaningful distractors, closely mirroring real-world assessment scenarios. Experiments with GPT-4o-mini demonstrate a 7% improvement in correctness over the baseline model, with qualitative improvements in evidence handling, response structure, and domain-specific reasoning. DRAFT represents a practical approach to improving compliance assessment systems while maintaining the transparency and evidence-based reasoning essential in regulatory domains.
arxiv情報
| 著者 | Regan Bolton,Mohammadreza Sheikhfathollahi,Simon Parkinson,Vanessa Vulovic,Gary Bamford,Dan Basher,Howard Parkinson |
| 発行日 | 2025-05-02 14:34:33+00:00 |
| arxivサイト | arxiv_id(pdf) |