Conformal Alignment: Knowing When to Trust Foundation Models with Guarantees

要約

基礎モデルからの出力を一か八かのタスクに展開する前に、それらが人間の価値観と一致していることを確認することが不可欠です。
たとえば、放射線医学のレポート生成では、視覚言語モデルによって生成されたレポートは、医療上の意思決定に使用される前に人間の評価と一致している必要があります。
このペーパーでは、出力がユーザー指定の位置合わせ基準を満たすユニットを識別するための一般的なフレームワークであるコンフォーマル アラインメントについて説明します。
基礎モデルやデータ分布に関係なく、平均して、選択されたユニットの所定の割合が実際に調整基準を満たしていることが保証されます。
事前トレーニングされたモデルと、モデルによって生成された出力を持つ新しいユニットが与えられると、コンフォーマル アライメントは、グラウンド トゥルース アライメント ステータスを含む一連の参照データを活用して、アライメント予測子をトレーニングします。
次に、予測されたアライメント スコアがデータ依存のしきい値を超える新しいユニットを選択し、対応する出力が信頼できるものであると認定します。
質問応答と放射線医学レポート生成への応用を通じて、私たちの方法が適度な量の参照データに対する軽量トレーニングを通じて信頼できる出力を持つユニットを正確に識別できることを実証します。
その途中で、アライメント予測におけるさまざまな特徴の有益性を調査し、それらを標準モデルと組み合わせてアライメント予測子を構築します。

要約(オリジナル)

Before deploying outputs from foundation models in high-stakes tasks, it is imperative to ensure that they align with human values. For instance, in radiology report generation, reports generated by a vision-language model must align with human evaluations before their use in medical decision-making. This paper presents Conformal Alignment, a general framework for identifying units whose outputs meet a user-specified alignment criterion. It is guaranteed that on average, a prescribed fraction of selected units indeed meet the alignment criterion, regardless of the foundation model or the data distribution. Given any pre-trained model and new units with model-generated outputs, Conformal Alignment leverages a set of reference data with ground-truth alignment status to train an alignment predictor. It then selects new units whose predicted alignment scores surpass a data-dependent threshold, certifying their corresponding outputs as trustworthy. Through applications to question answering and radiology report generation, we demonstrate that our method is able to accurately identify units with trustworthy outputs via lightweight training over a moderate amount of reference data. En route, we investigate the informativeness of various features in alignment prediction and combine them with standard models to construct the alignment predictor.

arxiv情報

著者 Yu Gui,Ying Jin,Zhimei Ren
発行日 2024-05-16 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク