要約
知識の蓄積と更新には、時間的な進行が不可欠である。ウェブ検索はエージェントの知識の基盤として頻繁に採用されるが、不適切な設定はエージェントの応答の質に影響を与える。ここでは、大規模言語モデル(LLM)エージェントの知識のばらつきを測定するためのストレステストとして、異なる日付制御ツール(DCT)を用いてエージェントの動作を評価する。LLMエージェントは、ウェブ検索を利用して科学論文の抄録を完成させる。我々は、検索エンジンの時間性は、ツール依存のエージェント性能に変換されるが、ベースモデルの選択と思考連鎖プロンプトのような明示的な推論指示によって軽減できることを示す。我々の結果は、エージェントの設計と評価は、動的な視点を持ち、信頼性を確保するために、外部リソースの時間的影響を考慮する手段を実装すべきであることを示している。
要約(オリジナル)
Temporal progression is an integral part of knowledge accumulation and update. Web search is frequently adopted as grounding for agent knowledge, yet an improper configuration affects the quality of the agent’s responses. Here, we assess the agent behavior using distinct date-controlled tools (DCTs) as stress test to measure the knowledge variability of large language model (LLM) agents. We demonstrate the temporal effects of an LLM agent as a writing assistant, which uses web search to complete scientific publication abstracts. We show that the temporality of search engine translates into tool-dependent agent performance but can be alleviated with base model choice and explicit reasoning instructions such as chain-of-thought prompting. Our results indicate that agent design and evaluations should take a dynamical view and implement measures to account for the temporal influence of external resources to ensure reliability.
arxiv情報
| 著者 | R. Patrick Xian,Qiming Cui,Stefan Bauer,Reza Abbasi-Asl |
| 発行日 | 2025-04-03 17:53:20+00:00 |
| arxivサイト | arxiv_id(pdf) |