Hazards from Increasingly Accessible Fine-Tuning of Downloadable Foundation Models

要約

事前トレーニングされた基礎モデルの重みの公開リリース (ダウンロード可能なアクセス \citep{solaiman_gradient_2023} とも呼ばれます) により、法外な事前トレーニング費用をかけずに微調整が可能になります。
私たちの研究では、ダウンロード可能なモデルの微調整がますます容易になり、危険が増大する可能性があると主張しています。
まず、微調整のアクセシビリティを向上させるための研究に焦点を当てます。
私たちは、A) 微調整の計算コストを削減すること、B) より多くのアクター間でそのコストを共有する能力を向上させること、という研究に議論を分割しました。
第二に、微調整方法がますます利用しやすくなり、悪意のある使用が容易になり、潜在的に危険な機能を持つモデルの監視が困難になるため、危険が増大する可能性があると私たちは主張します。
3 番目に、可能性のある緩和策と、よりアクセスしやすい微調整の利点について説明します。
危険に関する不確実性が依然としてかなり残っていることを考慮して、我々は、緩和策の開発が緊急に必要であることを強調して結論に達する。

要約(オリジナル)

Public release of the weights of pretrained foundation models, otherwise known as downloadable access \citep{solaiman_gradient_2023}, enables fine-tuning without the prohibitive expense of pretraining. Our work argues that increasingly accessible fine-tuning of downloadable models may increase hazards. First, we highlight research to improve the accessibility of fine-tuning. We split our discussion into research that A) reduces the computational cost of fine-tuning and B) improves the ability to share that cost across more actors. Second, we argue that increasingly accessible fine-tuning methods may increase hazard through facilitating malicious use and making oversight of models with potentially dangerous capabilities more difficult. Third, we discuss potential mitigatory measures, as well as benefits of more accessible fine-tuning. Given substantial remaining uncertainty about hazards, we conclude by emphasizing the urgent need for the development of mitigations.

arxiv情報

著者 Alan Chan,Ben Bucknall,Herbie Bradley,David Krueger
発行日 2023-12-22 15:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク