Granite Guardian

要約

プロンプトと応答のリスク検出を提供するように設計された保護機能スイートである Granite Guardian モデルを導入し、大規模言語モデル (LLM) と組み合わせて安全かつ責任ある使用を可能にします。
これらのモデルは、社会的偏見、冒涜、暴力、性的コンテンツ、非倫理的行為、脱獄、およびコンテキスト関連性、根拠性、検索拡張生成 (RAG) の回答関連性などの幻覚関連リスクを含む、複数のリスク側面にわたる包括的なカバレッジを提供します。
さまざまなソースからの人による注釈と合成データを組み合わせた独自のデータセットでトレーニングされた Granite Guardian モデルは、ジェイルブレイクや RAG 固有の問題など、従来のリスク検出モデルでは見落とされがちなリスクに対処します。
有害なコンテンツと RAG 幻覚関連のベンチマークでそれぞれ 0.871 と 0.854 の AUC スコアを備えた Granite Guardian は、この分野で利用可能な最も一般化可能で競争力のあるモデルです。
オープンソースとしてリリースされた Granite Guardian は、コミュニティ全体で責任ある AI 開発を促進することを目的としています。
https://github.com/ibm-granite/granite-guardian

要約(オリジナル)

We introduce the Granite Guardian models, a suite of safeguards designed to provide risk detection for prompts and responses, enabling safe and responsible use in combination with any large language model (LLM). These models offer comprehensive coverage across multiple risk dimensions, including social bias, profanity, violence, sexual content, unethical behavior, jailbreaking, and hallucination-related risks such as context relevance, groundedness, and answer relevance for retrieval-augmented generation (RAG). Trained on a unique dataset combining human annotations from diverse sources and synthetic data, Granite Guardian models address risks typically overlooked by traditional risk detection models, such as jailbreaks and RAG-specific issues. With AUC scores of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks respectively, Granite Guardian is the most generalizable and competitive model available in the space. Released as open-source, Granite Guardian aims to promote responsible AI development across the community. https://github.com/ibm-granite/granite-guardian

arxiv情報

著者 Inkit Padhi,Manish Nagireddy,Giandomenico Cornacchia,Subhajit Chaudhury,Tejaswini Pedapati,Pierre Dognin,Keerthiram Murugesan,Erik Miehling,Martín Santillán Cooper,Kieran Fraser,Giulio Zizzo,Muhammad Zaid Hameed,Mark Purcell,Michael Desmond,Qian Pan,Inge Vejsbjerg,Elizabeth M. Daly,Michael Hind,Werner Geyer,Ambrish Rawat,Kush R. Varshney,Prasanna Sattigeri
発行日 2024-12-10 18:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク