MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens

要約

多くの高度なラージ言語モデル (LLM) は、最大 128K のコンテキスト長をサポートし、一部は 200K まで拡張されます。
汎用ドメインの一部のベンチマークでは、ロングコンテキスト機能の評価も追跡調査されています。
医療分野では、独自のコンテキストと分野の専門知識の必要性によりタスクが独特であるため、さらなる評価が必要です。
ただし、医療シナリオでは長いテキストが頻繁に存在するにもかかわらず、この分野における LLM の長いコンテキスト機能の評価ベンチマークはまだまれです。
この論文では、4K から 200K トークンまでの 7 つの長さレベルを備えた初の医療用ロングコンテキスト ベンチマークである MedOdyssey を提案します。
MedOdyssey は、医療コンテキストの「干し草の山の中の針」タスクと医療アプリケーションに固有の一連のタスクという 2 つの主要コンポーネントで構成され、合わせて 10 個のデータセットを構成します。
最初のコンポーネントには、LLM の知識漏洩とデータ汚染を軽減するための、直観に反する推論や新しい (未知の) ファクトの挿入などの課題が含まれています。
2 番目の要素は、専門的な医療専門知識を必要とするという課題に直面します。
特に、異なる LLM ができるだけ多くの同一コンテキストを観察することを保証することで公平性を向上させるために、「最大同一コンテキスト」原則を設計します。
私たちの実験では、長いコンテキストを処理するために調整された高度な独自のオープンソース LLM を評価し、詳細なパフォーマンス分析を示します。
これは、LLM が依然として課題に直面しており、この分野でさらなる研究が必要であることを浮き彫りにしています。
コードとデータはリポジトリ \url{https://github.com/JOHNNY-fans/MedOdyssey.} でリリースされています。

要約(オリジナル)

Numerous advanced Large Language Models (LLMs) now support context lengths up to 128K, and some extend to 200K. Some benchmarks in the generic domain have also followed up on evaluating long-context capabilities. In the medical domain, tasks are distinctive due to the unique contexts and need for domain expertise, necessitating further evaluation. However, despite the frequent presence of long texts in medical scenarios, evaluation benchmarks of long-context capabilities for LLMs in this field are still rare. In this paper, we propose MedOdyssey, the first medical long-context benchmark with seven length levels ranging from 4K to 200K tokens. MedOdyssey consists of two primary components: the medical-context ‘needles in a haystack’ task and a series of tasks specific to medical applications, together comprising 10 datasets. The first component includes challenges such as counter-intuitive reasoning and novel (unknown) facts injection to mitigate knowledge leakage and data contamination of LLMs. The second component confronts the challenge of requiring professional medical expertise. Especially, we design the “Maximum Identical Context” principle to improve fairness by guaranteeing that different LLMs observe as many identical contexts as possible. Our experiment evaluates advanced proprietary and open-source LLMs tailored for processing long contexts and presents detailed performance analyses. This highlights that LLMs still face challenges and need for further research in this area. Our code and data are released in the repository: \url{https://github.com/JOHNNY-fans/MedOdyssey.}

arxiv情報

著者 Yongqi Fan,Hongli Sun,Kui Xue,Xiaofan Zhang,Shaoting Zhang,Tong Ruan
発行日 2024-06-21 09:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク