Overview of the PromptCBLUE Shared Task in CHIP2023

要約

本稿では、CHIP-2023 Conference で開催された PromptCBLUE 共有タスク (http://cips-chip.org.cn/2023/eval1) の概要を紹介します。
この共有タスクは CBLUE ベンチマークを再構築し、一般的な医療自然言語処理における中国語のオープンドメインまたは医療ドメインの大規模言語モデル (LLM) に優れたテストベッドを提供します。
2 つの異なるトラックが開催されます: (a) プロンプト チューニング トラック。LLM のマルチタスク プロンプト チューニングを調査します。(b) オープンソース LLM のコンテキスト内学習機能を調査します。
産業界と学術界から多くのチームが共通のタスクに参加し、トップチームが素晴らしいテスト結果を達成しました。
このペーパーでは、タスク、データセット、評価指標、および両方のタスクの上位システムについて説明します。
最後に、この論文では、参加チームが検討したさまざまなアプローチの手法と評価結果を要約しています。

要約(オリジナル)

This paper presents an overview of the PromptCBLUE shared task (http://cips-chip.org.cn/2023/eval1) held in the CHIP-2023 Conference. This shared task reformualtes the CBLUE benchmark, and provide a good testbed for Chinese open-domain or medical-domain large language models (LLMs) in general medical natural language processing. Two different tracks are held: (a) prompt tuning track, investigating the multitask prompt tuning of LLMs, (b) probing the in-context learning capabilities of open-sourced LLMs. Many teams from both the industry and academia participated in the shared tasks, and the top teams achieved amazing test results. This paper describes the tasks, the datasets, evaluation metrics, and the top systems for both tasks. Finally, the paper summarizes the techniques and results of the evaluation of the various approaches explored by the participating teams.

arxiv情報

著者 Wei Zhu,Xiaoling Wang,Mosha Chen,Buzhou Tang
発行日 2023-12-29 09:05:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク