FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

要約

科学的な視覚化と文書を理解するには、キャプションが重要です。
科学者向けの既存のキャプション方法は、トレーニングのためにドキュメントから抽出されたフィギュアキャプションのペアに依存しています。その多くは、有用性、説明、視覚性、視覚的説明のようなメトリックに関して不足しています[15]。
高品質のフィギュアキャプションの生成を可能にするために、Figcaps-HFに、読者の好みに最適化されたキャプションを生成する際にドメインの専門家フィードバックを組み込むことができるフィギュアキャプション生成の新しいフレームワークを導入します。
私たちのフレームワークは、1)フィギュアキャプションペアの品質を評価するための自動方法で構成されています。2)読者の好みの生成的なフィギュアからキャプションモデルを最適化するための人間のフィードバック(RLHF)の新しい強化学習(RLHF)方法。
さまざまな種類のモデルにわたる標準的な微調整のパフォーマンスを改善することにより、単純な学習フレームワークの有効性を実証します。
特に、BLIPを基本モデルとして使用する場合、RLHFフレームワークは、ルージュ、ブルー、および流星でそれぞれ35.7%、16.9%、9%の平均ゲインを達成します。
最後に、この問題のRLHF技術のさらなる評価と開発を可能にするために、フィギュアキャプションペアに関する人間のフィードバックを含む大規模なベンチマークデータセットをリリースします。

要約(オリジナル)

Captions are crucial for understanding scientific visualizations and documents. Existing captioning methods for scientific figures rely on figure-caption pairs extracted from documents for training, many of which fall short with respect to metrics like helpfulness, explainability, and visual-descriptiveness [15] leading to generated captions being misaligned with reader preferences. To enable the generation of high-quality figure captions, we introduce FigCaps-HF a new framework for figure-caption generation that can incorporate domain expert feedback in generating captions optimized for reader preferences. Our framework comprises of 1) an automatic method for evaluating quality of figure-caption pairs, 2) a novel reinforcement learning with human feedback (RLHF) method to optimize a generative figure-to-caption model for reader preferences. We demonstrate the effectiveness of our simple learning framework by improving performance over standard fine-tuning across different types of models. In particular, when using BLIP as the base model, our RLHF framework achieves a mean gain of 35.7%, 16.9%, and 9% in ROUGE, BLEU, and Meteor, respectively. Finally, we release a large-scale benchmark dataset with human feedback on figure-caption pairs to enable further evaluation and development of RLHF techniques for this problem.

arxiv情報

著者 Ashish Singh,Ashutosh Singh,Prateek Agarwal,Zixuan Huang,Arpita Singh,Tong Yu,Sungchul Kim,Victor Bursztyn,Nesreen K. Ahmed,Puneet Mathur,Erik Learned-Miller,Franck Dernoncourt,Ryan A. Rossi
発行日 2025-06-17 16:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク