Enhance Reasoning Ability of Visual-Language Models via Large Language Models

要約

事前トレーニングされたビジュアル言語モデル (VLM) は、画像キャプション タスクで優れたパフォーマンスを示しました。
ただし、推理力が不十分な場合もあります。
対照的に、大規模言語モデル (LLM) は強力な推論機能を備えて出現します。
そこで、大規模言語モデルの推論能力をゼロショットシナリオの視覚言語モデルに移す、TReEと呼ばれる手法を提案します。
TReEには「観察」「思考」「再考」という3つのステージがあります。
観察段階は、VLM が相対画像の全体的な情報を取得することを示します。
思考段階では、画像情報とタスクの説明を LLM のプロンプトとして組み合わせ、論理的推論を行います。
再思考段階では理論的根拠から学習し、VLM を通じて最終結果を推論します。

要約(オリジナル)

Pre-trained visual language models (VLM) have shown excellent performance in image caption tasks. However, it sometimes shows insufficient reasoning ability. In contrast, large language models (LLMs) emerge with powerful reasoning capabilities. Therefore, we propose a method called TReE, which transfers the reasoning ability of a large language model to a visual language model in zero-shot scenarios. TReE contains three stages: observation, thinking, and re-thinking. Observation stage indicates that VLM obtains the overall information of the relative image. Thinking stage combines the image information and task description as the prompt of the LLM, inference with the rationals. Re-Thinking stage learns from rationale and then inference the final result through VLM.

arxiv情報

著者 Yueting Yang,Xintong Zhang,Wenjuan Han
発行日 2023-05-22 17:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク