FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

要約

視覚言語モデル (VLM) は、さまざまな応用において目覚ましい進歩を遂げ、一般的な研究の方向性となっています。
この論文では、27 のソースデータセットから派生した 110 万のマルチターン会話で構成されるフィードバック洗練データセットである FIRE を構築し、VLM がさまざまなタスクにわたるユーザーフィードバックに基づいて自発的に応答を洗練できるようにします。
データ収集をスケールアップするために、FIRE は FIRE-100K と FIRE-1M の 2 つのコンポーネントで収集されます。FIRE-100K は GPT-4V によって生成され、FIRE-1M は FIRE-100K でトレーニングされたモデルによって自由に生成されます。
次に、VLM のフィードバック調整機能を包括的に評価するベンチマークである FIRE-Bench を構築します。これには、テストデータとして 11,000 件のフィードバック調整会話、2 つの評価設定、および VLM にフィードバックを提供するモデルが含まれています。
私たちは、FIRE-100K および FIRE-1M で LLaVA を微調整することによって FIRE-LLaVA モデルを開発しました。これは、FIRE-Bench で顕著なフィードバック調整機能を示し、トレーニングされていない VLM を 50% 上回るパフォーマンスを示し、より効率的なユーザーエージェントインタラクションを実現し、
FIRE データセットの重要性。

要約(オリジナル)

Vision language models (VLMs) have achieved impressive progress in diverse applications, becoming a prevalent research direction. In this paper, we build FIRE, a feedback-refinement dataset, consisting of 1.1M multi-turn conversations that are derived from 27 source datasets, empowering VLMs to spontaneously refine their responses based on user feedback across diverse tasks. To scale up the data collection, FIRE is collected in two components: FIRE-100K and FIRE-1M, where FIRE-100K is generated by GPT-4V, and FIRE-1M is freely generated via models trained on FIRE-100K. Then, we build FIRE-Bench, a benchmark to comprehensively evaluate the feedback-refining capability of VLMs, which contains 11K feedback-refinement conversations as the test data, two evaluation settings, and a model to provide feedback for VLMs. We develop the FIRE-LLaVA model by fine-tuning LLaVA on FIRE-100K and FIRE-1M, which shows remarkable feedback-refining capability on FIRE-Bench and outperforms untrained VLMs by 50%, making more efficient user-agent interactions and underscoring the significance of the FIRE dataset.

arxiv情報

著者	Pengxiang Li,Zhi Gao,Bofei Zhang,Tao Yuan,Yuwei Wu,Mehrtash Harandi,Yunde Jia,Song-Chun Zhu,Qing Li
発行日	2024-12-02 08:43:40+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー