NeMo Guardrails: A Toolkit for Controllable and Safe LLM Applications with Programmable Rails

要約

NeMo Guardrails は、プログラム可能なガードレールを LLM ベースの会話システムに簡単に追加するためのオープンソース ツールキットです。
ガードレール (略してレール) は、有害と考えられるトピックについて話さない、事前定義された対話パスに従う、特定の言語スタイルを使用するなど、LLM の出力を制御する特定の方法です。
LLM プロバイダーと開発者がトレーニング時に特定のモデルに埋め込まれるガードレールを追加できるメカニズムがいくつかあります。
モデルの位置合わせを使用します。
これとは異なり、NeMo Guardrails では、対話管理からインスピレーションを得たランタイムを使用して、開発者がプロ​​グラム可能なレールを LLM アプリケーションに追加できます。これらのレールはユーザー定義であり、基礎となる LLM から独立しており、解釈可能です。
私たちの最初の結果は、提案されたアプローチをいくつかの LLM プロバイダーで使用して、プログラマブル レールを使用して制御可能で安全な LLM アプリケーションを開発できることを示しています。

要約(オリジナル)

NeMo Guardrails is an open-source toolkit for easily adding programmable guardrails to LLM-based conversational systems. Guardrails (or rails for short) are a specific way of controlling the output of an LLM, such as not talking about topics considered harmful, following a predefined dialogue path, using a particular language style, and more. There are several mechanisms that allow LLM providers and developers to add guardrails that are embedded into a specific model at training, e.g. using model alignment. Differently, using a runtime inspired from dialogue management, NeMo Guardrails allows developers to add programmable rails to LLM applications – these are user-defined, independent of the underlying LLM, and interpretable. Our initial results show that the proposed approach can be used with several LLM providers to develop controllable and safe LLM applications using programmable rails.

arxiv情報

著者 Traian Rebedea,Razvan Dinu,Makesh Sreedhar,Christopher Parisien,Jonathan Cohen
発行日 2023-10-16 15:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク