要約
大規模言語モデル (LLM) が従来の NLP タスクを超えて現実世界のアプリケーションのエージェントとして実行するように拡張されるにつれ、その堅牢性を評価することがますます重要になります。
ただし、既存のベンチマークでは、文化的および社会的意識などの重要な側面が見落とされていることがよくあります。
これらに対処するために、オンライン ショッピングとソーシャル ディスカッション フォーラムという 2 つの Web ベースのタスクにわたって、LLM エージェントの文化的および社会的規範に対する感受性を評価するように設計されたベンチマークである CASA を導入します。
私たちのアプローチでは、規範に違反するユーザーのクエリや観察を検出し、適切に対応する LLM エージェントの能力を評価します。
さらに、認知度の範囲、ユーザーのクエリ管理における有用性、誤解を招く Web コンテンツに直面した場合の違反率を測定する包括的な評価フレームワークを提案します。
実験によると、現在の LLM は Web ベースのエージェント環境よりも非エージェント環境の方がパフォーマンスが大幅に優れており、エージェントの認識範囲は 10% 未満、違反率は 40% 以上に達しています。
パフォーマンスを向上させるために、プロンプトと微調整という 2 つの方法を検討し、両方の方法を組み合わせることで補完的な利点が得られることを発見しました。文化固有のデータセットで微調整すると、ブーストを促しながら、エージェントのさまざまな地域にわたって一般化する能力が大幅に強化されます。
複雑なタスクをナビゲートするエージェントの能力。
これらの調査結果は、開発サイクル中に LLM エージェントの文化的および社会的認識を常にベンチマークすることの重要性を強調しています。
要約(オリジナル)
As large language models (LLMs) expand into performing as agents for real-world applications beyond traditional NLP tasks, evaluating their robustness becomes increasingly important. However, existing benchmarks often overlook critical dimensions like cultural and social awareness. To address these, we introduce CASA, a benchmark designed to assess LLM agents’ sensitivity to cultural and social norms across two web-based tasks: online shopping and social discussion forums. Our approach evaluates LLM agents’ ability to detect and appropriately respond to norm-violating user queries and observations. Furthermore, we propose a comprehensive evaluation framework that measures awareness coverage, helpfulness in managing user queries, and the violation rate when facing misleading web content. Experiments show that current LLMs perform significantly better in non-agent than in web-based agent environments, with agents achieving less than 10% awareness coverage and over 40% violation rates. To improve performance, we explore two methods: prompting and fine-tuning, and find that combining both methods can offer complementary advantages — fine-tuning on culture-specific datasets significantly enhances the agents’ ability to generalize across different regions, while prompting boosts the agents’ ability to navigate complex tasks. These findings highlight the importance of constantly benchmarking LLM agents’ cultural and social awareness during the development cycle.
arxiv情報
著者 | Haoyi Qiu,Alexander R. Fabbri,Divyansh Agarwal,Kung-Hsiang Huang,Sarah Tan,Nanyun Peng,Chien-Sheng Wu |
発行日 | 2024-10-30 17:35:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google