CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update

要約

大規模言語モデル (LLM) を利用して既製のビジュアル ツールを作成することは、多様なビジュアル タスクに対応できる堅牢なビジュアル アシスタントを開発するための有望な研究手段となります。
ただし、これらの方法では、通常、使用するツールを凍結することにより、継続的な学習の可能性が見落とされ、新しい知識を必要とする環境への適応が制限されます。
この課題に取り組むために、私たちは閉ループ ビジュアル アシスタントである CLOVA を提案します。これは、推論、反映、学習フェーズを含むフレームワーク内で動作します。
推論フェーズでは、LLM はプログラムを生成し、対応するツールを実行して、割り当てられたタスクを完了します。
リフレクション フェーズでは、マルチモーダルなグローバル/ローカル リフレクション スキームが人間のフィードバックを分析して、どのツールを更新する必要があるかを判断します。
最後に、学習フェーズでは、トレーニング データを自動的に収集する 3 つの柔軟なアプローチを採用し、ツールを更新するための新しいプロンプト チューニング スキームを導入することで、CLOVA が新しい知識を効率的に取得できるようにします。
実験結果は、CLOVA が視覚的な質問応答と複数画像推論で 5%、知識タグ付けで 10%、画像編集で 20% 既存のツール使用方法を上回っていることを示しています。
これらの結果は、一般的な視覚アシスタントにおける継続的な学習機能の重要性を強調しています。

要約(オリジナル)

Utilizing large language models (LLMs) to compose off-the-shelf visual tools represents a promising avenue of research for developing robust visual assistants capable of addressing diverse visual tasks. However, these methods often overlook the potential for continual learning, typically by freezing the utilized tools, thus limiting their adaptation to environments requiring new knowledge. To tackle this challenge, we propose CLOVA, a Closed-Loop Visual Assistant, which operates within a framework encompassing inference, reflection, and learning phases. During the inference phase, LLMs generate programs and execute corresponding tools to complete assigned tasks. In the reflection phase, a multimodal global-local reflection scheme analyzes human feedback to determine which tools require updating. Lastly, the learning phase employs three flexible approaches to automatically gather training data and introduces a novel prompt tuning scheme to update the tools, allowing CLOVA to efficiently acquire new knowledge. Experimental findings demonstrate that CLOVA surpasses existing tool-usage methods by 5% in visual question answering and multiple-image reasoning, by 10% in knowledge tagging, and by 20% in image editing. These results underscore the significance of the continual learning capability in general visual assistants.

arxiv情報

著者 Zhi Gao,Yuntao Du,Xintong Zhang,Xiaojian Ma,Wenjuan Han,Song-Chun Zhu,Qing Li
発行日 2024-04-10 15:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク