要約
最先端の言語モデルはスタイル転送タスクに優れていますが、現在の研究はスタイル転送システムの説明可能性に取り組んでいません。
GPT-3.5 や GPT-4 などの大規模な言語モデルを使用して説明を生成することもできますが、小規模で広く分散され、透明性の高い代替手段が利用可能な場合、このような複雑なシステムの使用は非効率的です。
ChatGPT からのモデル蒸留による説明を備えた形式的スタイルの転送データセットを強化および改善するフレームワークを提案します。
生成された説明をさらに改良するために、ChatGPT が自身の出力に対する批評家として機能するように促すことで、コンテキスト内学習 (ICLEF: 専門家フィードバックからのコンテキスト内学習) を使用して、希少な専門家による人間のフィードバックを組み込む新しい方法を提案します。
結果として得られた 9,960 個の説明可能な形式形式転送インスタンス (e-GYAFC) のデータセットを使用して、現在オープンに分散されている命令調整モデル (および一部の設定では ChatGPT) がタスクでのパフォーマンスが低く、高いパフォーマンスで微調整が行われていることを示します。
– 自動評価によって示されるように、高品質のデータセットは大幅な改善につながります。
人間による評価では、ChatGPT よりもはるかに小さいモデルをデータに基づいて微調整した方が、専門家の好みとよりよく一致することがわかりました。
最後に、説明可能なスタイル転送タスクに基づいて微調整されたモデルの 2 つの潜在的なアプリケーション、つまり、解釈可能な著者の検証と、AI 生成のテキスト検出器に対する解釈可能な敵対的攻撃について説明します。
要約(オリジナル)
While state-of-the-art language models excel at the style transfer task, current work does not address explainability of style transfer systems. Explanations could be generated using large language models such as GPT-3.5 and GPT-4, but the use of such complex systems is inefficient when smaller, widely distributed, and transparent alternatives are available. We propose a framework to augment and improve a formality style transfer dataset with explanations via model distillation from ChatGPT. To further refine the generated explanations, we propose a novel way to incorporate scarce expert human feedback using in-context learning (ICLEF: In-Context Learning from Expert Feedback) by prompting ChatGPT to act as a critic to its own outputs. We use the resulting dataset of 9,960 explainable formality style transfer instances (e-GYAFC) to show that current openly distributed instruction-tuned models (and, in some settings, ChatGPT) perform poorly on the task, and that fine-tuning on our high-quality dataset leads to significant improvements as shown by automatic evaluation. In human evaluation, we show that models much smaller than ChatGPT fine-tuned on our data align better with expert preferences. Finally, we discuss two potential applications of models fine-tuned on the explainable style transfer task: interpretable authorship verification and interpretable adversarial attacks on AI-generated text detectors.
arxiv情報
著者 | Arkadiy Saakyan,Smaranda Muresan |
発行日 | 2023-09-15 17:41:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google