Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models

要約

生成大規模言語モデル (LLM) の幅広い適用性と適応性により、LLM の迅速な導入が可能になりました。
事前トレーニングされたモデルは多くのタスクを実行できますが、そのようなモデルは多くの場合、さまざまなダウンストリーム アプリケーションでのパフォーマンスを向上させるために微調整されます。
ただし、これはモデルライセンスの違反、モデルの盗難、著作権侵害に関する問題につながります。
さらに、最近の進歩により、生成テクノロジーは、モデルのサプライチェーン内の説明責任の問題を悪化させる有害なコンテンツを生成する可能性があることが示されています。
したがって、モデルがどのようにトレーニングされたか、またはテキストが生成されたか、および事前トレーニングされた基本モデルが何であったかを調査する方法が必要です。
この論文では、特定の微調整された LLM の起源を、対応する事前トレーニングされた基本モデルまで遡ることによって、この未解決の問題に対処するための最初のステップを踏みます。
さまざまな知識レベルと属性戦略を検討した結果、最適な方法で 10 個の微調整モデルのうち 8 個を正確に追跡できることがわかりました。

要約(オリジナル)

The wide applicability and adaptability of generative large language models (LLMs) has enabled their rapid adoption. While the pre-trained models can perform many tasks, such models are often fine-tuned to improve their performance on various downstream applications. However, this leads to issues over violation of model licenses, model theft, and copyright infringement. Moreover, recent advances show that generative technology is capable of producing harmful content which exacerbates the problems of accountability within model supply chains. Thus, we need a method to investigate how a model was trained or a piece of text was generated and what their pre-trained base model was. In this paper we take the first step to address this open problem by tracing back the origin of a given fine-tuned LLM to its corresponding pre-trained base model. We consider different knowledge levels and attribution strategies, and find that we can correctly trace back 8 out of the 10 fine tuned models with our best method.

arxiv情報

著者 Myles Foley,Ambrish Rawat,Taesung Lee,Yufang Hou,Gabriele Picco,Giulio Zizzo
発行日 2023-06-15 17:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク