Refining Input Guardrails: Enhancing LLM-as-a-Judge Efficiency Through Chain-of-Thought Fine-Tuning and Alignment

要約

大規模言語モデル (LLM) は、会話型 AI 製品などのさまざまなアプリケーションで価値をもたらす強力な機能を実証しています。
重大なリスクや評判への影響につながる可能性のある、悪意のあるユーザーの操作に対する脆弱性を軽減することで、これらの製品のセキュリティと信頼性を確保することが最も重要です。
この研究では、入力モデレーションのガードレールとして機能するさまざまな LLM の思考連鎖 (CoT) 応答の微調整と調整の有効性に関する包括的な研究を紹介します。
私たちは、少数のトレーニング データ セットを活用して、これらのモデルを代理防御メカニズムとして適応させ、悪意のある入力を検出し、その判定の推論を提供することで、会話型エージェントの悪用を防止することで、さまざまなチューニング方法を系統的に探索しています。
私たちは、さまざまな敵対的および悪意のあるクエリ タイプ全体に一般化するために、さまざまなチューニング戦略の有効性と堅牢性を厳密に評価します。
私たちの実験結果は、制約のあるデータ リソースであっても、さまざまな範囲の有害な入力クエリに合わせた調整プロセスの可能性を概説しています。
これらの技術は、会話型 AI システムの安全性を大幅に強化し、より安全で信頼できる AI 主導の対話を展開するための実行可能なフレームワークを提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated powerful capabilities that render them valuable in different applications, including conversational AI products. It is paramount to ensure the security and reliability of these products by mitigating their vulnerabilities towards malicious user interactions, which can lead to the exposure of great risks and reputational repercussions. In this work, we present a comprehensive study on the efficacy of fine-tuning and aligning Chain-of-Thought (CoT) responses of different LLMs that serve as input moderation guardrails. We systematically explore various tuning methods by leveraging a small set of training data to adapt these models as proxy defense mechanisms to detect malicious inputs and provide a reasoning for their verdicts, thereby preventing the exploitation of conversational agents. We rigorously evaluate the efficacy and robustness of different tuning strategies to generalize across diverse adversarial and malicious query types. Our experimental results outline the potential of alignment processes tailored to a varied range of harmful input queries, even with constrained data resources. These techniques significantly enhance the safety of conversational AI systems and provide a feasible framework for deploying more secure and trustworthy AI-driven interactions.

arxiv情報

著者 Melissa Kazemi Rad,Huy Nghiem,Andy Luo,Sahil Wadhwa,Mohammad Sorower,Stephen Rawls
発行日 2025-01-22 18:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク