要約
特に自動車システムのような安全性の高いドメインでは、ソフトウェアリリースの決定の信頼性と有効性を確保することが重要です。
しばしば表形式で提示されるリリース検証データの正確な分析は、このプロセスで極めて重要な役割を果たします。
ただし、広範なテストデータセットと検証メトリックの手動分析に依存する従来の方法は、遅延と高コストが発生しやすいです。
大規模な言語モデル(LLMS)は、分析的推論、コンテキストの理解、スコープ外のクエリの処理、および構造化されたテストデータの処理において、有望な代替案を提供します。
安全性が批判的なシナリオでの直接的な適用を妨げる制限。
このペーパーでは、自動車ドメインの表形式データを分析するためのLLMベースのツールであるGatelensを紹介します。
Gatelensは、自然言語のクエリをリレーショナル代数(RA)式に変換し、最適化されたPythonコードを生成します。
ベンチマークデータセットのベースラインシステムを上回り、より高いF1スコアを達成し、複雑であいまいなクエリをより堅牢で処理します。
アブレーション研究は、RAモジュールの重要な役割を確認し、省略するとパフォーマンスが急激に低下します。
産業評価により、ガテレンは分析時間を80%以上削減し、高精度と信頼性を維持していることが明らかになりました。
提示された結果で実証されているように、Gatelensは、少数のショットの例に依存することなく高性能を達成し、多様な企業の役割からのさまざまなクエリタイプにわたって強い一般化を紹介しました。
パートナーの自動車会社でガテレンを展開することからの洞察は、AIをリリース検証などの重要なワークフローに統合するための実用的なガイダンスを提供します。
結果は、テスト結果分析を自動化することにより、Gatelensがより速く、より情報を供給された、信頼できるリリースの決定を可能にし、したがって、自動車システムでソフトウェアのスケーラビリティと信頼性を進めることができることを示しています。
要約(オリジナル)
Ensuring the reliability and effectiveness of software release decisions is critical, particularly in safety-critical domains like automotive systems. Precise analysis of release validation data, often presented in tabular form, plays a pivotal role in this process. However, traditional methods that rely on manual analysis of extensive test datasets and validation metrics are prone to delays and high costs. Large Language Models (LLMs) offer a promising alternative but face challenges in analytical reasoning, contextual understanding, handling out-of-scope queries, and processing structured test data consistently; limitations that hinder their direct application in safety-critical scenarios. This paper introduces GateLens, an LLM-based tool for analyzing tabular data in the automotive domain. GateLens translates natural language queries into Relational Algebra (RA) expressions and then generates optimized Python code. It outperforms the baseline system on benchmarking datasets, achieving higher F1 scores and handling complex and ambiguous queries with greater robustness. Ablation studies confirm the critical role of the RA module, with performance dropping sharply when omitted. Industrial evaluations reveal that GateLens reduces analysis time by over 80% while maintaining high accuracy and reliability. As demonstrated by presented results, GateLens achieved high performance without relying on few-shot examples, showcasing strong generalization across various query types from diverse company roles. Insights from deploying GateLens with a partner automotive company offer practical guidance for integrating AI into critical workflows such as release validation. Results show that by automating test result analysis, GateLens enables faster, more informed, and dependable release decisions, and can thus advance software scalability and reliability in automotive systems.
arxiv情報
著者 | Arsham Gholamzadeh Khoee,Shuai Wang,Yinan Yu,Robert Feldt,Dhasarathy Parthasarathy |
発行日 | 2025-03-27 17:48:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google