Visual Instruction Tuning with Polite Flamingo

要約

最近の研究では、一連の注釈付き下流視覚言語データセットを使用したマルチモーダル大規模言語モデル (LLM) のマルチタスク微調整により、パフォーマンスが大幅に向上することが実証されました。
しかし、このプロセス中に、私たちが「マルチモーダル調整税」と呼んだ副作用が表面化します。
この副作用は、生の注釈があまりにも簡潔でフォーマットされていない性質のため、応答を適切にフォーマットするモデルの能力 (たとえば、「礼儀正しさ」) に悪影響を及ぼし、その結果、人間の好みが低下します。
このペーパーでは、生の注釈をより魅力的な「丁寧な」形式に変換するマルチモーダル応答リライターである Polite Flamingo を紹介します。
Polite Flamingo は、自動的に歪んだ応答から高品質な応答を再構築するように訓練され、その後、応答を書き換えるための膨大な視覚言語データセットに適用されます。
厳密なフィルタリングの後、PF-1M データセットを生成し、それを使用してマルチモーダル LLM を微調整することでその値をさらに検証します。
U 字型のマルチステージ チューニングやマルチターン オーグメンテーションなどの新しい方法論と組み合わせることで、結果として得られるモデル Clever Flamingo は、マルチモーダルの理解と、自動評価および人間による評価に基づく丁寧な応答の両方においてその利点を実証します。

要約(オリジナル)

Recent research has demonstrated that the multi-task fine-tuning of multi-modal Large Language Models (LLMs) using an assortment of annotated downstream vision-language datasets significantly enhances their performance. Yet, during this process, a side effect, which we termed as the ‘multi-modal alignment tax’, surfaces. This side effect negatively impacts the model’s ability to format responses appropriately — for instance, its ‘politeness’ — due to the overly succinct and unformatted nature of raw annotations, resulting in reduced human preference. In this paper, we introduce Polite Flamingo, a multi-modal response rewriter that transforms raw annotations into a more appealing, ‘polite’ format. Polite Flamingo is trained to reconstruct high-quality responses from their automatically distorted counterparts and is subsequently applied to a vast array of vision-language datasets for response rewriting. After rigorous filtering, we generate the PF-1M dataset and further validate its value by fine-tuning a multi-modal LLM with it. Combined with novel methodologies including U-shaped multi-stage tuning and multi-turn augmentation, the resulting model, Clever Flamingo, demonstrates its advantages in both multi-modal understanding and response politeness according to automated and human evaluations.

arxiv情報

著者 Delong Chen,Jianfeng Liu,Wenliang Dai,Baoyuan Wang
発行日 2023-07-03 13:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク