o3-mini vs DeepSeek-R1: Which One is Safer?

要約

Deepseek-R1のrudturedは、AI産業全般、特にLLMSのターニングポイントを構成します。
その機能は、創造的思考、コード生成、数学、自動化されたプログラムの修理など、いくつかのタスクでの優れたパフォーマンスを実証しています。
ただし、LLMは重要な定性的特性、つまり安全性と人間の価値との整合性を順守する必要があります。
Deepseek-R1の明確な競争相手は、アメリカのカウンターパートであるOpenaiのO3-Miniモデルであり、パフォーマンス、安全性、コストの面で高い基準を設定すると予想されています。
この論文では、Deepseek-R1(70Bバージョン)とOpenaiのO3-Mini(ベータ版)の両方の安全レベルの体系的な評価を実施します。
この目的のために、Astralという名前の最近リリースされた自動安全テストツールを利用しています。
このツールを活用することにより、両方のモデルで合計1260の安全でないテスト入力を自動的かつ体系的に生成および実行します。
両方のLLMSが提供する結果の半自動評価を実施した後、結果は、DeepSeek-R1がOpenaiのO3-Miniと比較して非常に安全ではないことを示しています。
私たちの評価に基づいて、DeepSeek-R1は実行されたプロンプトの11.98%に安全ではありませんが、O3-MINIは1.19%に過ぎませんでした。

要約(オリジナル)

The irruption of DeepSeek-R1 constitutes a turning point for the AI industry in general and the LLMs in particular. Its capabilities have demonstrated outstanding performance in several tasks, including creative thinking, code generation, maths and automated program repair, at apparently lower execution cost. However, LLMs must adhere to an important qualitative property, i.e., their alignment with safety and human values. A clear competitor of DeepSeek-R1 is its American counterpart, OpenAI’s o3-mini model, which is expected to set high standards in terms of performance, safety and cost. In this paper we conduct a systematic assessment of the safety level of both, DeepSeek-R1 (70b version) and OpenAI’s o3-mini (beta version). To this end, we make use of our recently released automated safety testing tool, named ASTRAL. By leveraging this tool, we automatically and systematically generate and execute a total of 1260 unsafe test inputs on both models. After conducting a semi-automated assessment of the outcomes provided by both LLMs, the results indicate that DeepSeek-R1 is highly unsafe as compared to OpenAI’s o3-mini. Based on our evaluation, DeepSeek-R1 answered unsafely to 11.98% of the executed prompts whereas o3-mini only to 1.19%.

arxiv情報

著者 Aitor Arrieta,Miriam Ugarte,Pablo Valle,José Antonio Parejo,Sergio Segura
発行日 2025-01-30 15:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク