A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

要約

この研究では、学習された画像キャプション評価メトリックの現在の制限、特にキャプション内のエラーの細かい評価の欠如、および不確実性を考慮せずに単一点の品質推定値への依存を調査します。
制限に対処するために、Clipscore値の分布を生成および校正するためのシンプルで効果的な戦略を提案します。
モデルに依存しないコンフォーマルリスク制御フレームワークを活用すると、タスク固有の制御変数のクリップスコア値を校正し、前述の制限に取り組みます。
実験結果は、入力マスキングなどの単純な方法で生成されたスコア分布を超えるコンフォーマルリスク制御を使用することで、より複雑なアプローチと比較して競争力のあるパフォーマンスを達成できることを示しています。
私たちの方法は、誤った単語を効果的に検出しながら、望ましいリスクレベルに合わせた正式な保証を提供します。
また、不確実性の推定と予測エラーとの相関関係を改善し、キャプション評価メトリックの全体的な信頼性を高めます。

要約(オリジナル)

This study explores current limitations of learned image captioning evaluation metrics, specifically the lack of granular assessments for errors within captions, and the reliance on single-point quality estimates without considering uncertainty. To address the limitations, we propose a simple yet effective strategy for generating and calibrating distributions of CLIPScore values. Leveraging a model-agnostic conformal risk control framework, we calibrate CLIPScore values for task-specific control variables, tackling the aforementioned limitations. Experimental results demonstrate that using conformal risk control, over score distributions produced with simple methods such as input masking, can achieve competitive performance compared to more complex approaches. Our method effectively detects erroneous words, while providing formal guarantees aligned with desired risk levels. It also improves the correlation between uncertainty estimations and prediction errors, thus enhancing the overall reliability of caption evaluation metrics.

arxiv情報

著者 Gonçalo Gomes,Bruno Martins,Chrysoula Zerva
発行日 2025-06-02 10:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク