Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

要約

大規模言語モデルの最近の進歩により、思考の連鎖における推論が導き出され、モデルが人間のような方法で問題を分解できるようになりました。
このパラダイムは言語モデルにおける複数ステップの推論能力を向上させますが、単峰性であるため制限があり、主に質問応答タスクに適用されます。
私たちは、視覚的な拡張を推論に組み込むことは、特に複雑で想像力豊かなタスクには不可欠であると主張します。
その結果、視覚言語の基礎を備えた思考の連鎖を活用して、逐次データ内の論理ギャップを再帰的に埋める新しい方法である VCoT を紹介します。
私たちの方法では、視覚的なガイダンスを使用して、一貫性のある新しい情報を追加する合成マルチモーダル充填を生成して、時間的推論の恩恵を受ける下流タスクの論理ギャップを削減するだけでなく、モデルの複数ステップの推論に解釈可能性を提供します。
私たちは VCoT をビジュアル ストーリーテリングと WikiHow 要約データセットに適用し、人間による評価を通じて、VCoT が思考チェーンのベースラインを上回る斬新で一貫した合成データ拡張を提供し、それを使用して下流のパフォーマンスを向上できることを実証します。

要約(オリジナル)

Recent advances in large language models elicit reasoning in a chain of thought that allows models to decompose problems in a human-like fashion. Though this paradigm improves multi-step reasoning ability in language models, it is limited by being unimodal and applied mainly to question-answering tasks. We claim that incorporating visual augmentation into reasoning is essential, especially for complex, imaginative tasks. Consequently, we introduce VCoT, a novel method that leverages chain of thought prompting with vision-language grounding to recursively bridge the logical gaps within sequential data. Our method uses visual guidance to generate synthetic multimodal infillings that add consistent and novel information to reduce the logical gaps for downstream tasks that can benefit from temporal reasoning, as well as provide interpretability into models’ multi-step reasoning. We apply VCoT to the Visual Storytelling and WikiHow summarization datasets and demonstrate through human evaluation that VCoT offers novel and consistent synthetic data augmentation beating chain of thought baselines, which can be used to enhance downstream performance.

arxiv情報

著者 Daniel Rose,Vaishnavi Himakunthala,Andy Ouyang,Ryan He,Alex Mei,Yujie Lu,Michael Saxon,Chinmay Sonar,Diba Mirza,William Yang Wang
発行日 2023-11-10 06:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク