要約
身体的質問応答 (EQA) は重要な問題であり、エージェントがユーザーの質問に答えるために環境を探索する必要があります。
既存の文献では、EQA は単一エージェントのシナリオでのみ研究されており、探索には時間と費用がかかる可能性があります。
この研究では、家庭環境に関するクエリに独立して応答する複数の大規模言語モデル (LLM) ベースのエージェントを含むマルチエージェント フレームワークで EQA を検討します。
各クエリに対して 1 つの回答を生成するには、個々の回答を使用して、回答を集約して堅牢な回答を得る中央回答モデル (CAM) をトレーニングします。
これまでの質問応答 (QA) 作業では、複数の LLM ベースの専門家からの回答に基づく中央モジュールを使用していましたが、このフレームワークを、特定の環境の専門家になるために最初に環境を物理的に探索する必要がある、具体化された LLM ベースのエージェントに適用することを特に検討しています。
質問に答えるため。
私たちの研究は、未知の環境の探索に依存する必要がある身体化されたエージェントを備えた中央応答モデル フレームワークを初めて利用したものです。
私たちは、エージェントが質問をされた後に環境を探索するのではなく、エージェントがまず一定時間環境を探索し、その後一連のクエリに答えるという EQA のバリエーションを設定しました。
CAM を使用すると、投票スキームやディベートなどのアンサンブル LLM の集計方法と比較した場合、EQA 精度が $46\%$ 高いことがわかりました。
CAM はエージェントとの通信を一切必要としないため、関連コストが軽減されます。
さまざまな非線形 (ニューラル ネットワーク、ランダム フォレスト、デシジョン ツリー、XGBoost) および線形 (ロジスティック回帰分類器、SVM) アルゴリズムを使用して CAM をアブレーションします。
私たちはさまざまなトポロジカル グラフ環境で実験を行い、エージェントの 1 つが悪意があり、目的が間違っていると思われる応答に寄与するケースを調べます。
要約(オリジナル)
Embodied Question Answering (EQA) is an important problem, which involves an agent exploring the environment to answer user queries. In the existing literature, EQA has exclusively been studied in single-agent scenarios, where exploration can be time-consuming and costly. In this work, we consider EQA in a multi-agent framework involving multiple large language models (LLM) based agents independently answering queries about a household environment. To generate one answer for each query, we use the individual responses to train a Central Answer Model (CAM) that aggregates responses for a robust answer. While prior Question Answering (QA) work has used a central module based on answers from multiple LLM-based experts, we specifically look at applying this framework to embodied LLM-based agents that must physically explore the environment first to become experts on their given environment to answer questions. Our work is the first to utilize a central answer model framework with embodied agents that must rely on exploring an unknown environment. We set up a variation of EQA where instead of the agents exploring the environment after the question is asked, the agents first explore the environment for a set amount of time and then answer a set of queries. Using CAM, we observe a $46\%$ higher EQA accuracy when compared against aggregation methods for ensemble LLM, such as voting schemes and debates. CAM does not require any form of agent communication, alleviating it from the associated costs. We ablate CAM with various nonlinear (neural network, random forest, decision tree, XGBoost) and linear (logistic regression classifier, SVM) algorithms. We experiment in various topological graph environments and examine the case where one of the agents is malicious and purposes contribute responses it believes to be wrong.
arxiv情報
著者 | Bhrij Patel,Vishnu Sashank Dorbala,Amrit Singh Bedi,Dinesh Manocha |
発行日 | 2024-09-16 07:12:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google