要約
強力なオープンソースの大型言語モデル(LLMS)の可用性は、個人データを使用してこれらのモデルを微調整してユーザーのユニークなライティングスタイルを模倣するなど、エキサイティングなユースケースを開きます。
このようなアシスタントの2つの重要な要件は、アシスタントがユーザー自身の執筆スタイルを認識できるように認識できるようにする必要があるという意味で、ユーザーは、電子メールアーカイブなどの非常に個人的なデータをサードパーティサービスにアップロードすることに正当に警戒することができる場合があります。
。
この論文では、Panzaと呼ばれる電子メール生成の特定のユースケースのために、このような自動化されたアシスタントの新しい設計と評価を紹介します。
Panzaのパーソナライゼーション機能は、逆命令技術のバリアントと検索の高等世代(RAG)を使用した微調整の組み合わせに基づいています。
この組み合わせにより、LLMを微調整して、限られたデータを使用してユーザーのライティングスタイルを反映できることを実証します。
無料のGoogle Colabインスタンス。
私たちの主要な方法論的貢献は、このパーソナライズされたライティングタスクの評価指標の最初の詳細な研究であり、システムコンポーネントのさまざまな選択、つまりRAGの使用とさまざまな微調整アプローチ、システムのパフォーマンスを影響する方法です。
さらに、100未満の電子メールサンプルが非常に少ないデータであり、人間を説得力のある模倣を模倣するモデルを作成するのに十分であることを実証します。
この発見は、言語モデルの以前に知られていない攻撃ベクトルを紹介します – 少数のライティングサンプルにアクセスすると、悪いアクターがターゲットのライティングスタイルを模倣する生成モデルを安く作成できるようになります。
完全なPanzaコードと、https://github.com/ist-daslab/panzamailで調査のためにライセンスされた3つの新しい電子メールデータセットをリリースしています。
要約(オリジナル)
The availability of powerful open-source large language models (LLMs) opens exciting use-cases, such as using personal data to fine-tune these models to imitate a user’s unique writing style. Two key requirements for such assistants are personalization – in the sense that the assistant should recognizably reflect the user’s own writing style – and privacy – users may justifiably be wary of uploading extremely personal data, such as their email archive, to a third-party service. In this paper, we present a new design and evaluation for such an automated assistant, for the specific use case of email generation, which we call Panza. Panza’s personalization features are based on a combination of fine-tuning using a variant of the Reverse Instructions technique together with Retrieval-Augmented Generation (RAG). We demonstrate that this combination allows us to fine-tune an LLM to reflect a user’s writing style using limited data, while executing on extremely limited resources, e.g. on a free Google Colab instance. Our key methodological contribution is the first detailed study of evaluation metrics for this personalized writing task, and of how different choices of system components–the use of RAG and of different fine-tuning approaches-impact the system’s performance. Additionally, we demonstrate that very little data – under 100 email samples – are sufficient to create models that convincingly imitate humans. This finding showcases a previously-unknown attack vector in language models – that access to a small number of writing samples can allow a bad actor to cheaply create generative models that imitate a target’s writing style. We are releasing the full Panza code as well as three new email datasets licensed for research use at https://github.com/IST-DASLab/PanzaMail.
arxiv情報
著者 | Armand Nicolicioiu,Eugenia Iofinova,Andrej Jovanovic,Eldar Kurtic,Mahdi Nikdan,Andrei Panferov,Ilia Markov,Nir Shavit,Dan Alistarh |
発行日 | 2025-02-10 15:08:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google