Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations

要約

大規模言語モデル (LLM) は、忠実でない出力から偏った有害な生成まで、さまざまなリスクの影響を受けやすくなります。
LLM を取り巻くいくつかの制限要因 (トレーニング コスト、API アクセス、データの可用性など) により、デプロイされたモデルに直接の安全制約を課すことが常に実現可能であるとは限りません。
したがって、効率的で信頼性の高い代替手段が必要です。
この目的を達成するために、さまざまな危害に対するラベルを提供する、コンパクトで構築が簡単な分類モデルである検出器のライブラリを作成および展開するための継続的な取り組みを紹介します。
検出器自体に加えて、ガードレールとしての機能から効果的な AI ガバナンスの実現まで、これらの検出器モデルの幅広い用途について説明します。
また、開発における固有の課題を深く掘り下げ、検出器の信頼性を高め、その範囲を拡大することを目的とした今後の取り組みについても議論します。

要約(オリジナル)

Large language models (LLMs) are susceptible to a variety of risks, from non-faithful output to biased and toxic generations. Due to several limiting factors surrounding LLMs (training cost, API access, data availability, etc.), it may not always be feasible to impose direct safety constraints on a deployed model. Therefore, an efficient and reliable alternative is required. To this end, we present our ongoing efforts to create and deploy a library of detectors: compact and easy-to-build classification models that provide labels for various harms. In addition to the detectors themselves, we discuss a wide range of uses for these detector models – from acting as guardrails to enabling effective AI governance. We also deep dive into inherent challenges in their development and discuss future work aimed at making the detectors more reliable and broadening their scope.

arxiv情報

著者 Swapnaja Achintalwar,Adriana Alvarado Garcia,Ateret Anaby-Tavor,Ioana Baldini,Sara E. Berger,Bishwaranjan Bhattacharjee,Djallel Bouneffouf,Subhajit Chaudhury,Pin-Yu Chen,Lamogha Chiazor,Elizabeth M. Daly,Kirushikesh DB,Rogério Abreu de Paula,Pierre Dognin,Eitan Farchi,Soumya Ghosh,Michael Hind,Raya Horesh,George Kour,Ja Young Lee,Nishtha Madaan,Sameep Mehta,Erik Miehling,Keerthiram Murugesan,Manish Nagireddy,Inkit Padhi,David Piorkowski,Ambrish Rawat,Orna Raz,Prasanna Sattigeri,Hendrik Strobelt,Sarathkrishna Swaminathan,Christoph Tillmann,Aashka Trivedi,Kush R. Varshney,Dennis Wei,Shalisha Witherspooon,Marcel Zalmanovici
発行日 2024-08-19 14:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク