Building Guardrails for Large Language Models

要約

大規模言語モデル (LLM) が私たちの日常生活にさらに統合されるにつれて、特にリスクが人間のユーザーや社会に重大な影響を与える可能性がある場合、そのリスクを特定して軽減することが重要です。
LLM の入力または出力をフィルタリングするガードレールは、中核的な安全保護テクノロジーとして登場しました。
このポジション ペーパーでは、現在のオープンソース ソリューション (Llama Guard、Nvidia NeMo、Guardrails AI) を詳しく考察し、より完全なソリューションの構築に向けた課題と道筋について説明します。
過去の研究からの確固たる証拠に基づいて、私たちは、さまざまな LLM アプリケーションにわたる多様なコンテキストの包括的な考慮に基づいて、LLM のガードレールを構築するための体系的なアプローチを提唱します。
私たちは、多分野のチームとの協力を通じて社会技術的手法を採用して正確な技術要件を特定し、要件の複雑さを受け入れるための高度なニューラルシンボリック実装を探索し、最終製品の最高の品質を確保するための検証とテストを開発することを提案します。

要約(オリジナル)

As Large Language Models (LLMs) become more integrated into our daily lives, it is crucial to identify and mitigate their risks, especially when the risks can have profound impacts on human users and societies. Guardrails, which filter the inputs or outputs of LLMs, have emerged as a core safeguarding technology. This position paper takes a deep look at current open-source solutions (Llama Guard, Nvidia NeMo, Guardrails AI), and discusses the challenges and the road towards building more complete solutions. Drawing on robust evidence from previous research, we advocate for a systematic approach to construct guardrails for LLMs, based on comprehensive consideration of diverse contexts across various LLMs applications. We propose employing socio-technical methods through collaboration with a multi-disciplinary team to pinpoint precise technical requirements, exploring advanced neural-symbolic implementations to embrace the complexity of the requirements, and developing verification and testing to ensure the utmost quality of the final product.

arxiv情報

著者 Yi Dong,Ronghui Mu,Gaojie Jin,Yi Qi,Jinwei Hu,Xingyu Zhao,Jie Meng,Wenjie Ruan,Xiaowei Huang
発行日 2024-05-29 12:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク