要約
大規模な言語モデル(LLM)は、私たちの日常生活の不可欠な部分になっています。
しかし、彼らは、個人のプライバシーを傷つけ、バイアスを永続させ、誤った情報を広めることができるものなど、特定のリスクを課します。
これらのリスクは、責任のある展開を確保するための堅牢な安全メカニズム、倫理的ガイドライン、および徹底的なテストの必要性を強調しています。
LLMSの安全性は、一般ユーザーが展開およびアクセスできる前に、モデルの前に徹底的にテストする必要がある重要なプロパティです。
このホワイトペーパーでは、OpenAIの新しいO3-Mini LLMに関するMondragon UniversityおよびSeville University of Seville Universityの研究者が、安全テストプログラムの初期アクセスの一環として実施した外部安全試験の経験を報告しています。
特に、ツールであるAstralを適用して、LLMSのさまざまな安全カテゴリをテストおよび評価するのに役立つ安全でないテスト入力(つまり、プロンプト)を自動的かつ体系的に生成します。
初期のO3-MINIベータ版で合計10,080の安全でないテスト入力を自動的に生成および実行します。
Astralによって安全でないと分類されたテストケースを手動で検証した後、安全でないLLMの動作の合計87の実際のインスタンスを特定します。
Openaiの最新のLLMの展開前の外部テスト段階で明らかになった重要な洞察と調査結果を強調します。
要約(オリジナル)
Large Language Models (LLMs) have become an integral part of our daily lives. However, they impose certain risks, including those that can harm individuals’ privacy, perpetuate biases and spread misinformation. These risks highlight the need for robust safety mechanisms, ethical guidelines, and thorough testing to ensure their responsible deployment. Safety of LLMs is a key property that needs to be thoroughly tested prior the model to be deployed and accessible to the general users. This paper reports the external safety testing experience conducted by researchers from Mondragon University and University of Seville on OpenAI’s new o3-mini LLM as part of OpenAI’s early access for safety testing program. In particular, we apply our tool, ASTRAL, to automatically and systematically generate up to date unsafe test inputs (i.e., prompts) that helps us test and assess different safety categories of LLMs. We automatically generate and execute a total of 10,080 unsafe test input on a early o3-mini beta version. After manually verifying the test cases classified as unsafe by ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We highlight key insights and findings uncovered during the pre-deployment external testing phase of OpenAI’s latest LLM.
arxiv情報
著者 | Aitor Arrieta,Miriam Ugarte,Pablo Valle,José Antonio Parejo,Sergio Segura |
発行日 | 2025-01-29 16:36:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google