Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering

要約

大規模言語モデル (LLM) は、知識ベースの視覚的質問応答 (VQA) において目覚ましい成果を上げています。
しかし、既存の方法には、外部ツールを自律的に使用できないこと、チームで作業できないことなどの課題がまだあります。
人間は、新しい質問に遭遇したときに外部ツールを使用する必要があるかどうかを知る傾向があります。たとえば、馴染みのある質問には直接答えることができる傾向がありますが、なじみのない質問に遭遇した場合には検索エンジンなどのツールを使用する傾向があります。
質問。
さらに、人間はより良い答えを得るために他の人と協力したり話し合ったりする傾向もあります。
これに触発されて、私たちはマルチエージェント投票フレームワークを提案します。
チーム内のさまざまなレベルのスタッフをシミュレートする 3 つの LLM ベースのエージェントを設計し、レベルに応じて利用可能なツールを割り当てます。
各エージェントは対応する回答を提供し、最終的にエージェントが提供したすべての回答が投票されて最終的な回答が得られます。
OK-VQA と A-OKVQA の実験では、私たちのアプローチが他のベースラインよりもそれぞれ 2.2 と 1.0 優れていることが示されています。

要約(オリジナル)

Large Language Models (LLMs) have achieved impressive results in knowledge-based Visual Question Answering (VQA). However existing methods still have challenges: the inability to use external tools autonomously, and the inability to work in teams. Humans tend to know whether they need to use external tools when they encounter a new question, e.g., they tend to be able to give a direct answer to a familiar question, whereas they tend to use tools such as search engines when they encounter an unfamiliar question. In addition, humans also tend to collaborate and discuss with others to get better answers. Inspired by this, we propose the multi-agent voting framework. We design three LLM-based agents that simulate different levels of staff in a team, and assign the available tools according to the levels. Each agent provides the corresponding answer, and finally all the answers provided by the agents are voted to get the final answer. Experiments on OK-VQA and A-OKVQA show that our approach outperforms other baselines by 2.2 and 1.0, respectively.

arxiv情報

著者 Zhongjian Hu,Peng Yang,Bing Li,Zhenqi Wang
発行日 2024-12-24 11:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク