要約
このペーパーでは、Exklopを紹介します。Exklopは、専門家の知識を論理的推論システムにどのように効果的に大規模な言語モデル(LLM)を統合するかを評価するために設計された新しいフレームワークです。
この機能は、メーカーが推奨する運用範囲など、専門知識など、自動監視システムに直接組み込まれるエンジニアリングで特に価値があります。
専門家の検証手順をミラーリングすることにより、範囲チェックや制約検証などのタスクがシステムの安全性と信頼性を確保するのに役立ちます。
私たちのアプローチは、LLM生成された論理ルールを体系的に評価し、これらの重要な検証タスクにおける構文の流encyさと論理的正しさの両方を評価します。
また、コード実行の結果に基づいて、反復フィードバックループを介してモデルの自己修正能力を調査します。
Exklopは、130のエンジニアリング施設、950プロンプト、および対応する検証ポイントで構成される拡張可能なデータセットを提示します。
包括的なベンチマークを可能にしながら、タスクの複雑さと実験のスケーラビリティを制御できます。
合成データ作成方法論を活用して、LLAMA3、GEMMA3、Codestral、QWENCODERを含むLLMの多様なセットで広範な経験的評価を実施します。
結果は、ほとんどのモデルがほぼ完全な構文的に正しいコードを生成し、専門知識を正しいコードに変換する際に強力なパフォーマンスを示すことを明らかにしています。
同時に、ほとんどのLLMはほぼ完璧な構文出力を生成しますが、自己改善の能力と同様に、論理ルールを正しく実装する能力は異なります。
全体として、Exklopは、遭遇するエラーの種類を明確に描写しながら、自己修正システムの効果的なモデルの選択を合理化する堅牢な評価プラットフォームとして機能します。
要約(オリジナル)
This paper introduces ExKLoP, a novel framework designed to evaluate how effectively Large Language Models (LLMs) integrate expert knowledge into logical reasoning systems. This capability is especially valuable in engineering, where expert knowledge-such as manufacturer-recommended operational ranges-can be directly embedded into automated monitoring systems. By mirroring expert verification steps, tasks like range checking and constraint validation help ensure system safety and reliability. Our approach systematically evaluates LLM-generated logical rules, assessing both syntactic fluency and logical correctness in these critical validation tasks. We also explore the models’ capacity for self-correction via an iterative feedback loop based on code execution outcomes. ExKLoP presents an extensible dataset comprising 130 engineering premises, 950 prompts, and corresponding validation points. It enables comprehensive benchmarking while allowing control over task complexity and scalability of experiments. We leverage the synthetic data creation methodology to conduct extensive empirical evaluation on a diverse set of LLMs including Llama3, Gemma3, Codestral and QwenCoder. The results reveal that most models generate nearly perfect syntactically correct code and exhibit strong performance in translating expert knowledge into correct code. At the same time, while most LLMs produce nearly flawless syntactic output, their ability to correctly implement logical rules varies, as does their capacity for self-improvement. Overall, ExKLoP serves as a robust evaluation platform that streamlines the selection of effective models for self-correcting systems while clearly delineating the types of errors encountered.
arxiv情報
著者 | Franciszek Górski,Oskar Wysocki,Marco Valentino,Andre Freitas |
発行日 | 2025-05-12 08:43:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google