要約
最近の開発で複雑さが増していることを考慮すると、高度な生成大規模言語モデル (LLM) の評価には大きな課題が生じています。
さらに、主要業績評価指標 (KPI) によって示されるように、さまざまな業界における LLM ベースのアプリケーションのパフォーマンスを評価することは、複雑な作業です。
このタスクでは、業界のユースケースと予想されるシステム動作を深く理解する必要があります。
自動車業界の文脈では、既存の評価基準は、車内の会話型質問応答 (ConvQA) システムを評価するには不十分であることが判明しています。
これらのシステムの固有の要求は、答えがドライバーや車の安全に関連し、自動車の領域内に限定されるため、現在の指標の限界を浮き彫りにしています。
これらの課題に対処するために、このペーパーでは、車載 ConvQA システムのパフォーマンスを評価するために調整された一連の KPI と、これらの KPI 用に特別に設計されたデータセットを紹介します。
予備的かつ包括的な経験的評価により、私たちが提案したアプローチの有効性が実証されています。
さらに、プロンプトでさまざまなペルソナを採用することの影響を調査したところ、異なる背景を持つ個人がトピックをどのように認識するかを反映して、評価において多様な視点をシミュレートするモデルの能力が向上することがわかりました。
要約(オリジナル)
The assessment of advanced generative large language models (LLMs) poses a significant challenge, given their heightened complexity in recent developments. Furthermore, evaluating the performance of LLM-based applications in various industries, as indicated by Key Performance Indicators (KPIs), is a complex undertaking. This task necessitates a profound understanding of industry use cases and the anticipated system behavior. Within the context of the automotive industry, existing evaluation metrics prove inadequate for assessing in-car conversational question answering (ConvQA) systems. The unique demands of these systems, where answers may relate to driver or car safety and are confined within the car domain, highlight the limitations of current metrics. To address these challenges, this paper introduces a set of KPIs tailored for evaluating the performance of in-car ConvQA systems, along with datasets specifically designed for these KPIs. A preliminary and comprehensive empirical evaluation substantiates the efficacy of our proposed approach. Furthermore, we investigate the impact of employing varied personas in prompts and found that it enhances the model’s capacity to simulate diverse viewpoints in assessments, mirroring how individuals with different backgrounds perceive a topic.
arxiv情報
著者 | Ken E. Friedl,Abbas Goher Khan,Soumya Ranjan Sahoo,Md Rashad Al Hasan Rony,Jana Germies,Christian Süß |
発行日 | 2023-11-13 17:02:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google