eyeballvul: a future-proof benchmark for vulnerability detection in the wild

要約

最近の LLM の長いコンテキストにより、モデルにコードベース全体のセキュリティ脆弱性を見つけるように要求するという新しいユースケースが可能になりました。
このタスクでのモデルのパフォーマンスを評価するために、eyeballvul を導入します。これは、言語モデルの脆弱性検出機能を大規模にテストするために設計されたベンチマークです。このベンチマークは、オープンソース リポジトリで公開されている一連の脆弱性から取得され、毎週更新されます。
ベンチマークは、さまざまなリポジトリ内のリビジョンのリストで構成されており、各リビジョンはそのリビジョンに存在する既知の脆弱性のリストに関連付けられています。
LLM ベースのスコアラーは、モデルによって返される可能性のある脆弱性のリストと、各リビジョンの既知の脆弱性のリストを比較するために使用されます。
2024 年 7 月の時点で、eyeballvul には 6,000 以上のリビジョンと 5,000 以上のリポジトリにわたって 24,000 以上の脆弱性が含まれており、サイズは約 55 GB です。

要約(オリジナル)

Long contexts of recent LLMs have enabled a new use case: asking models to find security vulnerabilities in entire codebases. To evaluate model performance on this task, we introduce eyeballvul: a benchmark designed to test the vulnerability detection capabilities of language models at scale, that is sourced and updated weekly from the stream of published vulnerabilities in open-source repositories. The benchmark consists of a list of revisions in different repositories, each associated with the list of known vulnerabilities present at that revision. An LLM-based scorer is used to compare the list of possible vulnerabilities returned by a model to the list of known vulnerabilities for each revision. As of July 2024, eyeballvul contains 24,000+ vulnerabilities across 6,000+ revisions and 5,000+ repositories, and is around 55GB in size.

arxiv情報

著者 Timothee Chauvin
発行日 2024-07-11 17:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク