要約
大規模な言語モデル(LLM)を搭載した会話エージェントは、私たちの毎日の相互作用に急速に不可欠になり、前例のない量の会話データを生成しています。
このようなデータセットは、社会的利益、トレンドトピック、集団的懸念に強力なレンズを提供します。
しかし、既存のアプローチは、通常、これらの相互作用を、大規模な会話ログ全体で集約と推論から出てくる可能性のある独立したミスの重要な洞察として扱います。
このホワイトペーパーでは、集約的な質問回答を紹介します。これは、特定の人口統計間の新たな懸念を特定するなど、集計的なクエリに答えるために、数千のユーザーチャットボットインタラクションを明示的に推論することを必要とする新しいタスクです。
この方向での研究を可能にするために、182,330の実世界のチャットボット会話から派生した6,027の集計的な質問で構成されるベンチマークであるWildChat-Aqaを構築します。
実験は、既存の方法が効果的に推論するのに苦労するか、法外な計算コストを負担するのに苦労し、大規模な会話データから集合的な洞察を抽出できる新しいアプローチの必要性を強調していることを示しています。
要約(オリジナル)
Conversational agents powered by large language models (LLMs) are rapidly becoming integral to our daily interactions, generating unprecedented amounts of conversational data. Such datasets offer a powerful lens into societal interests, trending topics, and collective concerns. Yet, existing approaches typically treat these interactions as independent and miss critical insights that could emerge from aggregating and reasoning across large-scale conversation logs. In this paper, we introduce Aggregative Question Answering, a novel task requiring models to reason explicitly over thousands of user-chatbot interactions to answer aggregative queries, such as identifying emerging concerns among specific demographics. To enable research in this direction, we construct a benchmark, WildChat-AQA, comprising 6,027 aggregative questions derived from 182,330 real-world chatbot conversations. Experiments show that existing methods either struggle to reason effectively or incur prohibitive computational costs, underscoring the need for new approaches capable of extracting collective insights from large-scale conversational data.
arxiv情報
著者 | Wentao Zhang,Woojeong Kim,Yuntian Deng |
発行日 | 2025-05-29 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google