Harnessing the Plug-and-Play Controller by Prompting

要約

制御可能なテキスト生成は、現実世界のアプリケーションにおける特定の制約を満たすテキストの生成に焦点を当てた、自然言語生成 (NLG) 内の成長分野です。
プラグ アンド プレイ コントローラー (PPC) などのこれまでのアプローチは、生成されたテキストのプロパティを柔軟な方法で操作することを目的としていました。
ただし、これらの方法では言語モデルのデコード プロセスの整合性が損なわれることが多く、その結果、テキスト生成がスムーズではなくなりました。
あるいは、他の手法では複数の属性プロンプトを利用して、生成されたテキストを目的の属性に揃えますが、このアプローチでは属性ごとにプロンプ​​トの設計が必要であり、言語モデルのサイズに依存していました。
この論文では、事前トレーニング済み言語モデル (PLM) を使用した、テキスト生成における柔軟な属性制御のための新しい方法を紹介します。
提案されたアプローチは、PPC を使用して生成プロセスをガイドすることで、生成されるテキストの流暢性を高めることを目的としています。
重要なアイデアは、プロンプトを変更することで生成されたテキストの分布を動的に調整し、言語モデルの出力スペースを効果的に制限し、必要な属性に影響を与えることです。
PLM と PPC 間のスムーズな連携を可能にするために、私たちの研究では、新しいモデル微調整方法である動的調整フィードバックによる強化学習 (RLDAF) を革新的に提案しています。この微調整プロセスは、言語モデルのパラメータの小さなサブセットを、
PPC 制御プロセス中に実行されるアクションを生成します。
その結果、PLM と PPC 間の調和のとれたコラボレーションにより、推論中のテキスト生成のスムーズさが向上します。
SST2 データセットに対して広範な実験が実施され、提案された手法は、テキストの流暢性や属性の一貫性など、さまざまな評価指標において以前のアプローチを上回りました。

要約(オリジナル)

Controllable text generation is a growing field within natural language generation (NLG) that focuses on producing text that meets specific constraints in real-world applications. Previous approaches, such as plug-and-play controllers (PPCs), aimed to steer the properties of generated text in a flexible manner. However, these methods often compromised the integrity of the language model’s decoding process, resulting in less smooth text generation. Alternatively, other techniques utilized multiple attribute prompts to align the generated text with desired attributes, but this approach required prompt design for each attribute and was dependent on the size of the language model. This paper introduces a novel method for flexible attribute control in text generation using pre-trained language models (PLMs). The proposed approach aims to enhance the fluency of generated text by guiding the generation process with PPCs. The key idea is to dynamically adjust the distribution of generated text by modifying prompts, effectively constraining the output space of the language model and influencing the desired attribute. To enable smooth cooperation between the PLM and the PPC, our work innovatively proposes a new model fine-tuning method: Reinforcement Learning with Dynamic Adjust Feedback (RLDAF).This fine-tuning process adapts a small subset of the language model’s parameters based on the generating actions taken during the PPC control process. The resulting harmonious collaboration between the PLM and PPC leads to improved smoothness in text generation during inference. Extensive experiments were conducted on the SST2 dataset, and the proposed method outperformed previous approaches in various evaluation metrics, including text fluency and attribute consistency.

arxiv情報

著者 Hao Wang,Lei Sha
発行日 2024-02-06 17:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク