CBF-LLM: Safe Control for LLM Alignment

要約

この論文では、コントロール バリア関数 (CBF) を活用して大規模言語モデル (LLM) を調整し、ユーザーが望むテキストを確実に生成するためのコントロール ベースのフレームワークを提案します。
提示されたフレームワークは、生成されたテキストに介入することを目的として、CBF に基づいて設計された安全フィルターを、ベースライン LLM の出力生成、つまりトークンのシーケンスに適用します。
全体的なテキスト生成システムは Llama 3 と RoBERTa モデルで実装されており、ソース コードは https://github.com/Mya-Mya/CBF-LLM で入手できます。
この実験は、ユーザーが指定した位置合わせタスクに必要な介入の数を減らす際の制御能力と有効性を実証します。

要約(オリジナル)

This paper proposes a control-based framework for aligning large language models (LLMs) by leveraging a control barrier function (CBF) to ensure user-desirable text generation. The presented framework applies the safety filter, designed based on the CBF, to the output generation of the baseline LLM, i.e., the sequence of the token, with the aim of intervening in the generated text. The overall text-generation system is implemented with Llama 3 and a RoBERTa model, and the source code is available at https://github.com/Mya-Mya/CBF-LLM. The experiment demonstrates its control ability and effectiveness in reducing the number of interventions needed for user-specified alignment tasks.

arxiv情報

著者 Yuya Miyaoka,Masaki Inoue
発行日 2024-08-28 08:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SY, eess.SY パーマリンク