要約
Foundation Model (FM) は、直接的かつ効率的な提案を提供することで、ユーザーが検索エンジンを通じて自己診断する方法に革命をもたらす可能性があります。
最近の研究は主に GPT-4 によって評価される FM の質や健康診断に合格する能力に焦点を当てており、事実を提供するための基礎モデルの基礎となる FM の記憶に保存されている自己診断用の原子的知識の範囲を定量化した研究はありません。
そして信頼できるご提案。
この論文では、まず、自己診断クエリに含まれる最も一般的なタイプのアトミック ナレッジを含む、17 のアトミック タイプと合計 14,048 個のアトミック ナレッジを含む自己診断アトミック ナレッジ (SdAK) のベンチマークを構築しました。
次に、ジェネリックおよびオープンソースの中国医療 FM の両方をベンチマークで評価しました。
実験結果は、自己診断の原子知識の点で、ジェネリック FM が医療用 FM よりも優れたパフォーマンスを発揮することを示しています。
エラー分析の結果、ジェネリック FM と医療 FM の両方が、未知の知識に関して常にユーザーの主張に応じるなど、おべっかになっていることが明らかになりました。
私たちはさらに、医療 FM の微調整に一般的に採用されるさまざまな種類のデータ、つまり実世界データ、半蒸留データ、蒸留データを調査し、蒸留データが FM に最も有益であることを発見しました。
コードとデータは \url{https://github.com/FreedomIntelligence/SDAK} で入手できます。
要約(オリジナル)
Foundation Models (FMs) have the potential to revolutionize the way users self-diagnose through search engines by offering direct and efficient suggestions. Recent studies primarily focused on the quality of FMs evaluated by GPT-4 or their ability to pass medical exams, no studies have quantified the extent of self-diagnostic atomic knowledge stored in FMs’ memory, which is the basis of foundation models to provide factual and reliable suggestions. In this paper, we first constructed a benchmark of Self-diagnostic Atomic Knowledge (SdAK), including the most common types of atomic knowledge involved in self-diagnostic queries, with 17 atomic types and a total of 14, 048 pieces of atomic knowledge. Then, we evaluated both generic and open-source Chinese medical FMs on the benchmark. The experimental results showcase that generic FMs perform better than medical FMs in terms of self-diagnostic atomic knowledge. Error analysis revealed that both generic and medical FMs are sycophantic, e.g., always catering to users’ claims when it comes to unknown knowledge. We further explored different types of data commonly adopted for fine-tuning medical FMs, i.e., real-world, semi-distilled, and distilled data, and found that distilled data can benefit FMs most. The code and data are available at \url{https://github.com/FreedomIntelligence/SDAK}.
arxiv情報
著者 | Yaxin Fan,Feng Jiang,Benyou Wang,Peifeng Li,Haizhou Li |
発行日 | 2023-11-16 11:08:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google