要約
最先端の大規模言語モデル (LLM) は、テキストをあるスタイルから別のスタイルに適応させることに優れていますが、現在の研究ではスタイル転送モデルの説明可能性については取り組んでいません。
最近の研究では、より大きな教師モデルからテキストの説明を生成し、それをより小さな生徒モデルに抽出することが検討されています。
このようなアプローチの課題の 1 つは、LLM 出力には修正に専門知識が必要なエラーが含まれる可能性があることですが、専門家のフィードバックを収集して組み込むことがコストと可用性の点で困難であることです。
この課題に対処するために、私たちは、コンテキスト内学習とモデルの自己批判を組み合わせることで、希少な専門家による人間のフィードバックを組み込んだ、モデル蒸留のための新しい人間と AI のコラボレーション アプローチである ICLEF を提案します。
私たちの方法が形式的(e-GYAFC)と主観的バイアス(e-WNC)のための高品質の合成説明可能なスタイル転送データセットの生成につながることを示します。
自動評価と人間による評価により、データセットに基づいて微調整された専門的な学生モデルが、単発設定での説明可能なスタイル転送タスクにおいて一般的な教師モデルよりも優れたパフォーマンスを発揮し、少数ショットの教師モデルと比較して競争力のあるパフォーマンスを示し、教師モデルの品質を強調しています。
データと専門家のフィードバックの役割。
著者帰属の外部タスクでは、e-GYAFC で微調整された小規模なモデルによって生成された説明の方が、少数のショットの教師モデルによって生成された説明よりも著者の予測が高いことを示します。
要約(オリジナル)
While state-of-the-art large language models (LLMs) can excel at adapting text from one style to another, current work does not address the explainability of style transfer models. Recent work has explored generating textual explanations from larger teacher models and distilling them into smaller student models. One challenge with such approach is that LLM outputs may contain errors that require expertise to correct, but gathering and incorporating expert feedback is difficult due to cost and availability. To address this challenge, we propose ICLEF, a novel human-AI collaboration approach to model distillation that incorporates scarce expert human feedback by combining in-context learning and model self-critique. We show that our method leads to generation of high-quality synthetic explainable style transfer datasets for formality (e-GYAFC) and subjective bias (e-WNC). Via automatic and human evaluation, we show that specialized student models fine-tuned on our datasets outperform generalist teacher models on the explainable style transfer task in one-shot settings, and perform competitively compared to few-shot teacher models, highlighting the quality of the data and the role of expert feedback. In an extrinsic task of authorship attribution, we show that explanations generated by smaller models fine-tuned on e-GYAFC are more predictive of authorship than explanations generated by few-shot teacher models.
arxiv情報
著者 | Arkadiy Saakyan,Smaranda Muresan |
発行日 | 2024-06-17 17:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google