Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach

要約

近年、自動運転やロボット工学など、さまざまな分野の政策決定において驚くべき成果が上げられています。
意思決定ポリシーの信頼性を脅かす可能性のある重大なシナリオが存在するため、意思決定ポリシーのテストは非常に重要です。
これらのポリシーをテストするために、多くの研究努力が行われてきました。
ただし、テスト対象のポリシーや環境の複雑さによるテスト効率の低さや多様性など、依然として大きな課題が残っています。
このペーパーでは、大規模言語モデル (LLM) の優れた機能に触発されて、意思決定ポリシーを効率的にテストするための LLM 主導のオンライン テスト フレームワークを提案します。
主なアイデアは、LLM ベースのテスト シナリオ ジェネレーターを使用して、熟考と推論を通じて困難なテスト ケースをインテリジェントに生成することです。
具体的には、まず「生成、テスト、フィードバック」パイプラインを設計し、テンプレート化されたプロンプト エンジニアリングを適用して、LLM の知識と推論能力を最大限に活用します。
次に、LLM が微調整を行う際に直面する固有の課題に対処するためのマルチスケール シナリオ生成戦略を導入し、テストの効率をさらに高めます。
最後に、広く使用されている 5 つのベンチマークで LLM 主導のアプローチを評価します。
実験結果は、私たちの方法が、重要なシナリオと多様なシナリオの両方を明らかにする上で、ベースラインのアプローチを大幅に上回っていることを示しています。

要約(オリジナル)

Recent years have witnessed surprising achievements of decision-making policies across various fields, such as autonomous driving and robotics. Testing for decision-making policies is crucial with the existence of critical scenarios that may threaten their reliability. Numerous research efforts have been dedicated to testing these policies. However, there are still significant challenges, such as low testing efficiency and diversity due to the complexity of the policies and environments under test. Inspired by the remarkable capabilities of large language models (LLMs), in this paper, we propose an LLM-driven online testing framework for efficiently testing decision-making policies. The main idea is to employ an LLM-based test scenario generator to intelligently generate challenging test cases through contemplation and reasoning. Specifically, we first design a ‘generate-test-feedback’ pipeline and apply templated prompt engineering to fully leverage the knowledge and reasoning abilities of LLMs. Then, we introduce a multi-scale scenario generation strategy to address the inherent challenges LLMs face in making fine adjustments, further enhancing testing efficiency. Finally, we evaluate the LLM-driven approach on five widely used benchmarks. The experimental results demonstrate that our method significantly outperforms baseline approaches in uncovering both critical and diverse scenarios.

arxiv情報

著者 Weichao Xu,Huaxin Pei,Jingxuan Yang,Yuchen Shi,Yi Zhang
発行日 2024-12-09 17:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク