要約
大規模言語モデル (LLM) は、会話エージェント、クリエイティブ ライティング、一般的なクエリ応答などの幅広いアプリケーションをサポートできます。
ただし、これらは通常堅牢ではないため、医療などのリスクの高い分野でのクエリ応答には適していません。同じクエリであっても、複数回プロンプトが表示されると異なる応答が返される可能性があります。
LLM クエリの堅牢性を向上させるために、ランク付けクエリを繰り返し使用し、社会選択理論の方法を使用してクエリを集約することを提案します。
私たちは、医療や障害診断などの診断設定におけるクエリのランク付けを研究し、文献からの Partial Borda Choice 関数を適用して複数のクエリ結果をマージする方法について説明します。
私たちの設定におけるいくつかの追加の興味深い特性について議論し、私たちのアプローチの堅牢性を経験的に評価します。
要約(オリジナル)
Large-language models (LLMs) can support a wide range of applications like conversational agents, creative writing or general query answering. However, they are ill-suited for query answering in high-stake domains like medicine because they are typically not robust – even the same query can result in different answers when prompted multiple times. In order to improve the robustness of LLM queries, we propose using ranking queries repeatedly and to aggregate the queries using methods from social choice theory. We study ranking queries in diagnostic settings like medical and fault diagnosis and discuss how the Partial Borda Choice function from the literature can be applied to merge multiple query results. We discuss some additional interesting properties in our setting and evaluate the robustness of our approach empirically.
arxiv情報
著者 | Nico Potyka,Yuqicheng Zhu,Yunjie He,Evgeny Kharlamov,Steffen Staab |
発行日 | 2024-02-08 17:29:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google