Style Vectors for Steering Generative Large Language Model

要約

本研究では、テキスト生成時に隠れ層の活性度にスタイルベクトルを追加することで、大規模言語モデル(LLM)の出力をセンチメント、感情、文体などの特定のスタイルに誘導する戦略を探求する。スタイルベクトルは、より複雑な学習ベースのアプローチとは対照的に、特定のスタイルの入力テキストに対して記録された層の活性度から単純に計算できることを示す。一連の実験を通して、このようなスタイルベクトルを用いて、生成されたテキストのスタイルに影響を与える活性化工学の有効性を、プロンプト工学とは異なるニュアンスとパラメータ可能な方法で実証する。本研究は、より適応的で効果的なAIを活用した対話システムの開発に向けた重要な一歩である。

要約(オリジナル)

This research explores strategies for steering the output of large language models (LLMs) towards specific styles, such as sentiment, emotion, or writing style, by adding style vectors to the activations of hidden layers during text generation. We show that style vectors can be simply computed from recorded layer activations for input texts in a specific style in contrast to more complex training-based approaches. Through a series of experiments, we demonstrate the effectiveness of activation engineering using such style vectors to influence the style of generated text in a nuanced and parameterisable way, distinguishing it from prompt engineering. The presented research constitutes a significant step towards developing more adaptive and effective AI-empowered interactive systems.

arxiv情報

著者 Kai Konen,Sophie Jentzsch,Diaoulé Diallo,Peer Schütt,Oliver Bensch,Roxanne El Baff,Dominik Opitz,Tobias Hecking
発行日 2024-02-02 18:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク