COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act


EUの人工知能法(AI法)は、責任あるAI開発に向けた重要な一歩であるが、明確な技術的解釈がないため、モデルのコンプライアンスを評価することが困難である。本研究では、(i)大規模言語モデル(LLM)に焦点を当て、その広範な規制要件を測定可能な技術要件に変換するEU AI法の初の技術的解釈と、(ii)徹底的な調査と最先端のLLMベンチマークの実装に基づく、オープンソースのAI法中心のベンチマークスイートからなる包括的なフレームワークであるCOMPL-AIを提示する。COMPL-AIの文脈で12の著名なLLMを評価することにより、特に頑健性、安全性、多様性、公平性のような分野において、既存のモデルとベンチマークの欠点を明らかにする。この研究は、LLMのバランスの取れた開発と、より包括的な規制に沿ったベンチマークを奨励し、これらの側面への焦点のシフトの必要性を強調している。同時に、COMPL-AIは初めて、同法の義務をより具体的で技術的なレベルに引き上げる可能性と難しさを示した。また、GPAI規範の起草など、同法の適用を可能にするためのEUの継続的な取り組みにも貢献するものである。


The EU’s Artificial Intelligence Act (AI Act) is a significant step towards responsible AI development, but lacks clear technical interpretation, making it difficult to assess models’ compliance. This work presents COMPL-AI, a comprehensive framework consisting of (i) the first technical interpretation of the EU AI Act, translating its broad regulatory requirements into measurable technical requirements, with the focus on large language models (LLMs), and (ii) an open-source Act-centered benchmarking suite, based on thorough surveying and implementation of state-of-the-art LLM benchmarks. By evaluating 12 prominent LLMs in the context of COMPL-AI, we reveal shortcomings in existing models and benchmarks, particularly in areas like robustness, safety, diversity, and fairness. This work highlights the need for a shift in focus towards these aspects, encouraging balanced development of LLMs and more comprehensive regulation-aligned benchmarks. Simultaneously, COMPL-AI for the first time demonstrates the possibilities and difficulties of bringing the Act’s obligations to a more concrete, technical level. As such, our work can serve as a useful first step towards having actionable recommendations for model providers, and contributes to ongoing efforts of the EU to enable application of the Act, such as the drafting of the GPAI Code of Practice.


著者 Philipp Guldimann,Alexander Spiridonov,Robin Staab,Nikola Jovanović,Mark Vero,Velko Vechev,Anna-Maria Gueorguieva,Mislav Balunović,Nikola Konstantinov,Pavol Bielik,Petar Tsankov,Martin Vechev
発行日 2025-02-03 14:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク