要約
このペーパーでは、大規模なデータとモデルの時代における信頼できるガードレールの重要な必要性に対処するVLMベースのビジョン保護手段であるLlavaguardを紹介します。
この目的のために、カスタマイズ可能な安全分類法、データの前処理、増強、トレーニングのセットアップを説明する新しいオープンフレームワークを確立します。
安全性に関するVLMセーフガードを教えるために、さらに高品質の人間の専門家注釈を備えたマルチモーダル安全データセットを作成します。各画像には、安全評価、カテゴリ、および根拠がラベル付けされています。
また、コンテキスト固有の評価をサポートするために、高度な増強を採用しています。
0.5bから7bの範囲の結果として得られるLlavaguardモデルは、柔軟なポリシーに対する視覚コンテンツの安全コンプライアンスを評価するための汎用性の高いツールとして機能します。
包括的な実験では、Llavaguardは、最先端のセーフガードとVLMの両方を精度と柔軟に処理して、さまざまなポリシーを柔軟に処理します。
さらに、2つの実際のアプリケーションでLlavaguardのパフォーマンスを示します。つまり、大規模なデータセットアノテーションとテキストから画像モデルのモデレーションです。
データセットやモデルの重みなど、フレームワーク全体を公開しています。
要約(オリジナル)
This paper introduces LlavaGuard, a suite of VLM-based vision safeguards that address the critical need for reliable guardrails in the era of large-scale data and models. To this end, we establish a novel open framework, describing a customizable safety taxonomy, data preprocessing, augmentation, and training setup. For teaching a VLM safeguard on safety, we further create a multimodal safety dataset with high-quality human expert annotations, where each image is labeled with a safety rating, category and rationale. We also employ advanced augmentations to support context-specific assessments. The resulting LlavaGuard models, ranging from 0.5B to 7B, serve as a versatile tool for evaluating the safety compliance of visual content against flexible policies. In comprehensive experiments, LlavaGuard outperforms both state-of-the-art safeguards and VLMs in accuracy and in flexibly handling different policies. Additionally, we demonstrate LlavaGuard’s performance in two real-world applications: large-scale dataset annotation and moderation of text-to-image models. We make our entire framework publicly available, including the dataset and model weights.
arxiv情報
著者 | Lukas Helff,Felix Friedrich,Manuel Brack,Kristian Kersting,Patrick Schramowski |
発行日 | 2025-01-31 15:57:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google