TestAgent: An Adaptive and Intelligent Expert for Human Assessment

要約

人間の内部状態を正確に評価することは、嗜好を理解し、パーソナライズされたサービスを提供し、実世界のアプリケーションにおける課題を特定するための鍵となる。心理測定から生まれた適応テストは、人間測定の主流となり、現在では教育、ヘルスケア、スポーツ、社会学に広く応用されている。適応テストは、最も少ないテスト問題を選択することによって、評価をカスタマイズします。しかし、現在のアダプティブ・テスト手法は、いくつかの課題に直面しています。ほとんどのアルゴリズムの機械化された性質は、推測行動や自由形式の問題の難しさにつながります。さらに、主観的な評価は、ノイズの多い回答データと粗い粒度のテスト出力に悩まされ、その有効性をさらに制限します。理想的なアダプティブ・テスト・プロセスに近づくために、我々は、対話的な関与を通じてアダプティブ・テストを強化するように設計された大規模言語モデル(LLM)搭載エージェントであるTestAgentを提案する。これは、アダプティブ・テストにおけるLLMの最初の応用である。TestAgentは、パーソナライズされた問題選択をサポートし、受験者の反応と異常を捕捉し、動的で会話的なインタラクションを通じて正確な結果を提供する。心理学、教育、ライフスタイルのアセスメントに関する実験によれば、我々のアプローチは、最新のベースラインよりも20%少ない質問数でより正確な結果を達成し、受験者は、スピード、スムーズさ、および他の次元でこのアプローチを好んだ。

要約(オリジナル)

Accurately assessing internal human states is key to understanding preferences, offering personalized services, and identifying challenges in real-world applications. Originating from psychometrics, adaptive testing has become the mainstream method for human measurement and has now been widely applied in education, healthcare, sports, and sociology. It customizes assessments by selecting the fewest test questions . However, current adaptive testing methods face several challenges. The mechanized nature of most algorithms leads to guessing behavior and difficulties with open-ended questions. Additionally, subjective assessments suffer from noisy response data and coarse-grained test outputs, further limiting their effectiveness. To move closer to an ideal adaptive testing process, we propose TestAgent, a large language model (LLM)-powered agent designed to enhance adaptive testing through interactive engagement. This is the first application of LLMs in adaptive testing. TestAgent supports personalized question selection, captures test-takers’ responses and anomalies, and provides precise outcomes through dynamic, conversational interactions. Experiments on psychological, educational, and lifestyle assessments show our approach achieves more accurate results with 20% fewer questions than state-of-the-art baselines, and testers preferred it in speed, smoothness, and other dimensions.

arxiv情報

著者 Junhao Yu,Yan Zhuang,YuXuan Sun,Weibo Gao,Qi Liu,Mingyue Cheng,Zhenya Huang,Enhong Chen
発行日 2025-06-03 16:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク