Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark

要約

複雑なウイルス学の実験室プロトコルをトラブルシューティングする機能を測定する大規模な言語モデル(LLM)ベンチマークであるVirology Fababilities Test(VCT)を提示します。
多数のPHDレベルの専門家のウイルス学者の入力から構築されたVCTは、ウイルス学研究所での実践的な作業に不可欠な基本、暗黙、視覚的知識をカバーする322ドルのマルチモーダル質問で構成されています。
VCTは困難です。インターネットにアクセスできる専門家のウイルス科医は、特にサブエリアの専門知識における質問に対して平均22.1 \%$ $ $ 22.1 \%$です。
ただし、最もパフォーマンスのあるLLMであるOpenaiのO3は、43.8ドル\%$の精度に達し、専門家のサブエリア内であっても94ドルの専門家ウイルス学者を上回ることができます。
専門家レベルのウイルス学のトラブルシューティングを提供する能力は本質的に二重使用です。有益な研究に役立ちますが、悪用される可能性もあります。
したがって、公開されているモデルがVCTでウイルス学者よりも優れているという事実は、緊急のガバナンスの考慮事項を提起します。
デュアル使用ウイルス学作業の専門家レベルのトラブルシューティングを提供するLLMの機能は、ライフサイエンスのデュアル使用技術を処理するための既存のフレームワークに統合する必要があることを提案します。

要約(オリジナル)

We present the Virology Capabilities Test (VCT), a large language model (LLM) benchmark that measures the capability to troubleshoot complex virology laboratory protocols. Constructed from the inputs of dozens of PhD-level expert virologists, VCT consists of $322$ multimodal questions covering fundamental, tacit, and visual knowledge that is essential for practical work in virology laboratories. VCT is difficult: expert virologists with access to the internet score an average of $22.1\%$ on questions specifically in their sub-areas of expertise. However, the most performant LLM, OpenAI’s o3, reaches $43.8\%$ accuracy, outperforming $94\%$ of expert virologists even within their sub-areas of specialization. The ability to provide expert-level virology troubleshooting is inherently dual-use: it is useful for beneficial research, but it can also be misused. Therefore, the fact that publicly available models outperform virologists on VCT raises pressing governance considerations. We propose that the capability of LLMs to provide expert-level troubleshooting of dual-use virology work should be integrated into existing frameworks for handling dual-use technologies in the life sciences.

arxiv情報

著者 Jasper Götting,Pedro Medeiros,Jon G Sanders,Nathaniel Li,Long Phan,Karam Elabd,Lennart Justen,Dan Hendrycks,Seth Donoughe
発行日 2025-04-29 15:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク