Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges

要約

大規模な言語モデル(LLM)は、ヘルスケアシステム全体の外来紹介タスクにますます適用されています。
ただし、特に動的でインタラクティブなシナリオにおいて、それらの有効性を評価するための標準化された評価基準が不足しています。
この研究では、インテリジェントな外来紹介(IOR)システム内のタスクの管理におけるLLMの機能と制限を体系的に調べ、そのようなシステム専用に設計された包括的な評価フレームワークを提案します。
このフレームワークは、2つのコアタスクで構成されています。定義された外来紹介の能力の評価に焦点を当てた静的評価と、反復対話を通じて外来患者の紹介の推奨事項を改良する能力を評価する動的評価です。
私たちの調査結果は、LLMSがBertのようなモデルよりも限られた利点を提供していることを示唆していますが、インタラクティブな対話中に効果的な質問をすることで有望です。

要約(オリジナル)

Large language models (LLMs) are increasingly applied to outpatient referral tasks across healthcare systems. However, there is a lack of standardized evaluation criteria to assess their effectiveness, particularly in dynamic, interactive scenarios. In this study, we systematically examine the capabilities and limitations of LLMs in managing tasks within Intelligent Outpatient Referral (IOR) systems and propose a comprehensive evaluation framework specifically designed for such systems. This framework comprises two core tasks: static evaluation, which focuses on evaluating the ability of predefined outpatient referrals, and dynamic evaluation, which evaluates capabilities of refining outpatient referral recommendations through iterative dialogues. Our findings suggest that LLMs offer limited advantages over BERT-like models, but show promise in asking effective questions during interactive dialogues.

arxiv情報

著者 Xiaoxiao Liu,Qingying Xiao,Junying Chen,Xiangyi Feng,Xiangbo Wu,Bairui Zhang,Xiang Wan,Jian Chang,Guangjun Yu,Yan Hu,Benyou Wang
発行日 2025-05-08 09:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges はコメントを受け付けていません

X-Driver: Explainable Autonomous Driving with Vision-Language Models

要約

エンドツーエンドの自律運転は大幅に進歩しており、従来のパイプラインよりもオープンループ設定と閉ループ設定の両方でシステムのシンプルさやより強力な運転性能などの利点を提供します。
ただし、既存のフレームワークは、クローズドループ評価の成功率が低いことに依然として悩まされており、実際の展開における制限を強調しています。
このホワイトペーパーでは、X-Driverを紹介します。X-Driverは、閉ループの自律運転、考え方(COT)を活用して自己回復モデリングを活用して、知覚と意思決定を強化するために設計された統一されたマルチモーダル大手言語モデル(MLLMS)フレームワークを紹介します。
Bench2Driveを含むCarlaシミュレーション環境でのパブリックベンチマークを使用して、複数の自律運転タスクにわたってXドライバーを検証します[6]。
私たちの実験結果は、優れた閉ループの性能を示しており、現在の最先端(SOTA)を上回り、運転決定の解釈性を改善します。
これらの発見は、エンドツーエンドの運転における構造化された推論の重要性を強調し、Xドライバーを閉ループの自律運転の将来の研究の強力なベースラインとして確立します。

要約(オリジナル)

End-to-end autonomous driving has advanced significantly, offering benefits such as system simplicity and stronger driving performance in both open-loop and closed-loop settings than conventional pipelines. However, existing frameworks still suffer from low success rates in closed-loop evaluations, highlighting their limitations in real-world deployment. In this paper, we introduce X-Driver, a unified multi-modal large language models(MLLMs) framework designed for closed-loop autonomous driving, leveraging Chain-of-Thought(CoT) and autoregressive modeling to enhance perception and decision-making. We validate X-Driver across multiple autonomous driving tasks using public benchmarks in CARLA simulation environment, including Bench2Drive[6]. Our experimental results demonstrate superior closed-loop performance, surpassing the current state-of-the-art(SOTA) while improving the interpretability of driving decisions. These findings underscore the importance of structured reasoning in end-to-end driving and establish X-Driver as a strong baseline for future research in closed-loop autonomous driving.

arxiv情報

著者 Wei Liu,Jiyuan Zhang,Binxiong Zheng,Yufeng Hu,Yingzhan Lin,Zengfeng Zeng
発行日 2025-05-08 09:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.ET, cs.RO | X-Driver: Explainable Autonomous Driving with Vision-Language Models はコメントを受け付けていません

Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders

要約

大規模な言語モデル(LLM)の多言語機能の背後にあるメカニズムは、ニューロンベースまたは内部活性化ベースの方法を使用して調べられています。
ただし、これらの方法は、多くの場合、重ね合わせや層ごとの活性化分散などの課題に直面しており、信頼性を制限します。
Sparse Autoencoders(SAE)は、LLMの活性化をSAE機能のスパースリニア組み合わせに分解することにより、より微妙な分析を提供します。
SAEから得られた特徴の単一言語性を評価するための新しいメトリックを導入し、一部の機能が特定の言語に強く関連していることを発見します。
さらに、これらのSAE機能を除去すると、LLMの1つの言語で能力が大幅に低下し、他の言語がほとんど影響を受けないことを示しています。
興味深いことに、いくつかの言語には複数の相乗的なSAE機能があることがわかり、それらを除去すると、個別にアブレーションするよりも大きな改善が得られます。
さらに、これらのSAE由来の言語固有の機能を活用して、ステアリングベクターを強化し、LLMSによって生成された言語を制御します。

要約(オリジナル)

The mechanisms behind multilingual capabilities in Large Language Models (LLMs) have been examined using neuron-based or internal-activation-based methods. However, these methods often face challenges such as superposition and layer-wise activation variance, which limit their reliability. Sparse Autoencoders (SAEs) offer a more nuanced analysis by decomposing the activations of LLMs into sparse linear combination of SAE features. We introduce a novel metric to assess the monolinguality of features obtained from SAEs, discovering that some features are strongly related to specific languages. Additionally, we show that ablating these SAE features only significantly reduces abilities in one language of LLMs, leaving others almost unaffected. Interestingly, we find some languages have multiple synergistic SAE features, and ablating them together yields greater improvement than ablating individually. Moreover, we leverage these SAE-derived language-specific features to enhance steering vectors, achieving control over the language generated by LLMs.

arxiv情報

著者 Boyi Deng,Yu Wan,Yidan Zhang,Baosong Yang,Fuli Feng
発行日 2025-05-08 10:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders はコメントを受け付けていません

Combating Confirmation Bias: A Unified Pseudo-Labeling Framework for Entity Alignment

要約

エンティティアラインメント(EA)は、同じ実世界のアイデンティティを指すさまざまな知識グラフ(KG)にわたって同等のエンティティペアを識別することを目的としています。
トレーニングに提供された種子アライメントの不足を回避するために、最近のEAモデルは、モデルトレーニングの種子アライメントに対して高い信頼性を持って予測される整理されていないエンティティペアを繰り返し追加するために、擬似標識戦略を利用しています。
ただし、擬似標識中の確認バイアスの悪影響はほとんど見過ごされているため、エンティティのアライメントパフォーマンスが妨げられています。
擬似標識ベースのエンティティアライメントの確認バイアスと体系的に闘うために、擬似標識エラーを明示的に排除してエンティティアライメントの精度を高めるためのエンティティアライメント(UPL-EA)の統一された擬似ラベルフレームワークを提案します。
UPL-EAは、2つの補完的なコンポーネントで構成されています。(1)最適な輸送(OT)ベースの擬似標識は、エンティティの対応を決定し、2つのkgの誤った一致を減らすための効果的な手段として離散OTモデリングを使用します。
効果的な基準は、1対1の対応を満たす擬似標識アライメントを推測するために導き出されます。
(2)並列擬似ラベルアンサンミングは、個別に並行してトレーニングされた複数のモデル上の予測を組み合わせることにより、擬似標識アライメントを洗練します。
その後、集まった擬似標識アライメントは、シードアライメントを強化して、アライメント推論のためのその後のモデルトレーニングを強化するために使用されます。
擬似標識エラーの排除におけるUPL-EAの有効性は、理論的にサポートされ、実験的に検証されています。
当社の広範な結果と詳細な分析は、15の競合ベースラインを超えるUPL-EAの優位性と、エンティティアライメントの一般的な擬似標識フレームワークとしての有用性を示しています。

要約(オリジナル)

Entity alignment (EA) aims at identifying equivalent entity pairs across different knowledge graphs (KGs) that refer to the same real-world identity. To circumvent the shortage of seed alignments provided for training, recent EA models utilize pseudo-labeling strategies to iteratively add unaligned entity pairs predicted with high confidence to the seed alignments for model training. However, the adverse impact of confirmation bias during pseudo-labeling has been largely overlooked, thus hindering entity alignment performance. To systematically combat confirmation bias for pseudo-labeling-based entity alignment, we propose a Unified Pseudo-Labeling framework for Entity Alignment (UPL-EA) that explicitly eliminates pseudo-labeling errors to boost the accuracy of entity alignment. UPL-EA consists of two complementary components: (1) Optimal Transport (OT)-based pseudo-labeling uses discrete OT modeling as an effective means to determine entity correspondences and reduce erroneous matches across two KGs. An effective criterion is derived to infer pseudo-labeled alignments that satisfy one-to-one correspondences; (2) Parallel pseudo-label ensembling refines pseudo-labeled alignments by combining predictions over multiple models independently trained in parallel. The ensembled pseudo-labeled alignments are thereafter used to augment seed alignments to reinforce subsequent model training for alignment inference. The effectiveness of UPL-EA in eliminating pseudo-labeling errors is both theoretically supported and experimentally validated. Our extensive results and in-depth analyses demonstrate the superiority of UPL-EA over 15 competitive baselines and its utility as a general pseudo-labeling framework for entity alignment.

arxiv情報

著者 Qijie Ding,Jie Yin,Daokun Zhang,Junbin Gao
発行日 2025-05-08 10:46:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Combating Confirmation Bias: A Unified Pseudo-Labeling Framework for Entity Alignment はコメントを受け付けていません

Large Language Models Understanding: an Inherent Ambiguity Barrier

要約

世界を理解し、関与している対話の意味を捉える能力に関して、大規模な言語モデル(LLMS)の並外れた出現以来、活発な進行中の議論が行われています。
議論と反論は、思考実験、LLMと人間の間の逸話的な会話、統計的言語分析、哲学的考慮事項などに基づいて提案されています。
この短い論文では、思考実験と半形式の考慮事項に基づいた反論を提示します。これは、LLMが驚くほど流fluent的な対話の意味を理解することを妨げる固有の曖昧さの障壁につながります。

要約(オリジナル)

A lively ongoing debate is taking place, since the extraordinary emergence of Large Language Models (LLMs) with regards to their capability to understand the world and capture the meaning of the dialogues in which they are involved. Arguments and counter-arguments have been proposed based upon thought experiments, anecdotal conversations between LLMs and humans, statistical linguistic analysis, philosophical considerations, and more. In this brief paper we present a counter-argument based upon a thought experiment and semi-formal considerations leading to an inherent ambiguity barrier which prevents LLMs from having any understanding of what their amazingly fluent dialogues mean.

arxiv情報

著者 Daniel N. Nissani
発行日 2025-05-08 10:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Large Language Models Understanding: an Inherent Ambiguity Barrier はコメントを受け付けていません

Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems

要約

検索拡張生成(RAG)は、大規模な言語モデル(LLM)システムを改善するための一般的な手法として浮上していますが、多くの選択肢、パラメーター、およびハイパーパラメーターを導入して、作成または調整する必要があります。
これには、LLM、埋め込み、ランカーモデル自体、および個々のRAGコンポーネントを管理するハイパーパラメーターが含まれます。
しかし、RAGまたはLLMシステムの構成全体をまとめて最適化することで、特に多目的設定では、顕著な大規模なソリューションスペース、騒々しい客観的評価、および評価の高コストにより、依存していないままです。
この作業では、LLMおよびRAGシステム全体にわたるコスト、潜時、安全性、およびアライメントの多目的パラメーター最適化の最初のアプローチを紹介します。
ベイジアンの最適化方法は、ベースラインアプローチを大幅に上回り、2つの新しいラグベンチマークタスクで優れたパレートフロントを取得することがわかります。
私たちは、多目的RAGシステムを設計している開業医にとって重要な考慮事項で作業を締めくくり、タスクや目的全体に最適な構成が一般化されないようなニュアンスを強調しています。

要約(オリジナル)

While Retrieval Augmented Generation (RAG) has emerged as a popular technique for improving Large Language Model (LLM) systems, it introduces a large number of choices, parameters and hyperparameters that must be made or tuned. This includes the LLM, embedding, and ranker models themselves, as well as hyperparameters governing individual RAG components. Yet, collectively optimizing the entire configuration in a RAG or LLM system remains under-explored – especially in multi-objective settings – due to intractably large solution spaces, noisy objective evaluations, and the high cost of evaluations. In this work, we introduce the first approach for multi-objective parameter optimization of cost, latency, safety and alignment over entire LLM and RAG systems. We find that Bayesian optimization methods significantly outperform baseline approaches, obtaining a superior Pareto front on two new RAG benchmark tasks. We conclude our work with important considerations for practitioners who are designing multi-objective RAG systems, highlighting nuances such as how optimal configurations may not generalize across tasks and objectives.

arxiv情報

著者 Matthew Barker,Andrew Bell,Evan Thomas,James Carr,Thomas Andrews,Umang Bhatt
発行日 2025-05-08 10:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62P30, 68Q32, 68T20, 90C29, cs.AI, cs.CL, cs.LG, G.1.6 | Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems はコメントを受け付けていません

Understanding In-context Learning of Addition via Activation Subspaces

要約

コンテキスト内学習を実行するには、言語モデルは個々の少数のショット例から信号を抽出し、これらを学習した予測ルールに集約し、このルールを新しい例に適用する必要があります。
これは、最新の変圧器モデルのフォワードパスでどのように実装されていますか?
これを研究するために、真の予測ルールが入力に整数$ k $を追加することである少数のショット学習タスクの構造化されたファミリを検討します。
llama-3-8bは、$ k $の範囲でこのタスクで高精度を達成し、新しい最適化アプローチを介して3つの注意ヘッドのみに少数の能力をローカライズします。
さらに、抽出された信号が6次元のサブスペースにあることを示します。ここでは、4つの寸法がユニット桁を追跡し、他の2つのディメンションが全体の大きさを追跡します。
最後に、これらのヘッドが個々の少数のショット例から情報をどのように抽出するかを調べ、以前の例からの間違いが後の例で抑制される自己修正メカニズムを特定します。
我々の結果は、前方パスを横切る低次元サブスペースを追跡することで、細粒の計算構造に関する洞察を提供する方法を示しています。

要約(オリジナル)

To perform in-context learning, language models must extract signals from individual few-shot examples, aggregate these into a learned prediction rule, and then apply this rule to new examples. How is this implemented in the forward pass of modern transformer models? To study this, we consider a structured family of few-shot learning tasks for which the true prediction rule is to add an integer $k$ to the input. We find that Llama-3-8B attains high accuracy on this task for a range of $k$, and localize its few-shot ability to just three attention heads via a novel optimization approach. We further show the extracted signals lie in a six-dimensional subspace, where four of the dimensions track the unit digit and the other two dimensions track overall magnitude. We finally examine how these heads extract information from individual few-shot examples, identifying a self-correction mechanism in which mistakes from earlier examples are suppressed by later examples. Our results demonstrate how tracking low-dimensional subspaces across a forward pass can provide insight into fine-grained computational structures.

arxiv情報

著者 Xinyan Hu,Kayo Yin,Michael I. Jordan,Jacob Steinhardt,Lijie Chen
発行日 2025-05-08 11:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Understanding In-context Learning of Addition via Activation Subspaces はコメントを受け付けていません

A Benchmark Dataset and a Framework for Urdu Multimodal Named Entity Recognition

要約

マルチモーダルコンテンツの出現、特にソーシャルメディアでのテキストと画像は、自然言語処理における研究のますます重要な領域として、マルチモーダルという名前のエンティティ認識(MNER)を位置づけています。
英語などの高リソース言語の進歩にもかかわらず、Mnerはウルドゥー語のような低リソース言語では既知のままです。
主な課題には、注釈付きマルチモーダルデータセットの希少性と標準化されたベースラインの欠如が含まれます。
これらの課題に対処するために、U-Mnerフレームワークを紹介し、Urdu Mnerの先駆的なリソースであるTwitter2015-Urduデータセットをリリースします。
広く使用されているTwitter2015データセットから適合し、ウルドゥー固有の文法ルールが注釈が付けられています。
このデータセット上のテキストベースモデルとマルチモーダルモデルの両方を評価することにより、ベンチマークベースラインを確立し、ウルドゥーMNERの将来の研究をサポートするための比較分析を提供します。
U-Mnerフレームワークは、テキストの埋め込みにUrdu-Bertを使用してテキストと視覚のコンテキストを統合し、視覚的な特徴抽出に再ネットを統合します。
私たちのモデルは、Twitter2015-urduデータセットで最先端のパフォーマンスを実現し、低リソース言語でのさらなるMNER研究の基礎を築きます。

要約(オリジナル)

The emergence of multimodal content, particularly text and images on social media, has positioned Multimodal Named Entity Recognition (MNER) as an increasingly important area of research within Natural Language Processing. Despite progress in high-resource languages such as English, MNER remains underexplored for low-resource languages like Urdu. The primary challenges include the scarcity of annotated multimodal datasets and the lack of standardized baselines. To address these challenges, we introduce the U-MNER framework and release the Twitter2015-Urdu dataset, a pioneering resource for Urdu MNER. Adapted from the widely used Twitter2015 dataset, it is annotated with Urdu-specific grammar rules. We establish benchmark baselines by evaluating both text-based and multimodal models on this dataset, providing comparative analyses to support future research on Urdu MNER. The U-MNER framework integrates textual and visual context using Urdu-BERT for text embeddings and ResNet for visual feature extraction, with a Cross-Modal Fusion Module to align and fuse information. Our model achieves state-of-the-art performance on the Twitter2015-Urdu dataset, laying the groundwork for further MNER research in low-resource languages.

arxiv情報

著者 Hussain Ahmad,Qingyang Zeng,Jing Wan
発行日 2025-05-08 11:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Benchmark Dataset and a Framework for Urdu Multimodal Named Entity Recognition はコメントを受け付けていません

Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks

要約

ヘルスケア情報抽出への大規模な言語モデル(LLMS)の適用は、有望なアプローチとして浮上しています。
この研究では、5つのオープンソースLLMSの分類パフォーマンスを評価します:Gemma-3-27B-IT、LLAMA3-70B、LLAMA4-109B、DeepSeek-R1-Distill-Lalama-70B、およびDeepSeek-V3-0324-UD-UUD-Q2_K_XLは、6つの医療関連の分類メディアに関与しています。
妊娠の有害転帰、潜在的なCOVID-19の症例)および臨床データ(スティグマの標識、投薬変更の議論)。
すべてのモデルタスクの組み合わせに対して、95%の信頼区間で精度、リコール、およびF1スコアを報告します。
私たちの調査結果は、LLM間の大きなパフォーマンスの変動性を明らかにしており、DeepSeekv3は全体的なパフォーマーの最強として浮上し、4つのタスクで最高のF1スコアを達成しています。
特に、モデルは一般に、臨床データタスクと比較してソーシャルメディアタスクで優れたパフォーマンスを発揮し、潜在的なドメイン固有の課題を示唆しています。
Gemma-3-27B-ITは、パラメーター数が小さいにもかかわらず非常に高いリコールを実証しましたが、Llama4-109bは前任者のLlama3-70bと比較して驚くほど圧倒的なパフォーマンスを示しました。
モデル間での明確な精密リコールトレードオフを観察しましたが、特異性に対する感度を好み、その逆も同様です。
これらの調査結果は、モデルサイズだけでなく、特定のデータドメインと精度リコール要件を考慮して、ヘルスケアアプリケーションのタスク固有のモデル選択の重要性を強調しています。
ヘルスケアがAI駆動型のテキスト分類ツールをますます統合するにつれて、この包括的なベンチマークは、ヘルスケアの文脈におけるLLMの継続的な評価とドメイン適応の必要性を強調しながら、モデルの選択と実装の貴重なガイダンスを提供します。

要約(オリジナル)

The application of large language models (LLMs) to healthcare information extraction has emerged as a promising approach. This study evaluates the classification performance of five open-source LLMs: GEMMA-3-27B-IT, LLAMA3-70B, LLAMA4-109B, DEEPSEEK-R1-DISTILL-LLAMA-70B, and DEEPSEEK-V3-0324-UD-Q2_K_XL, across six healthcare-related classification tasks involving both social media data (breast cancer, changes in medication regimen, adverse pregnancy outcomes, potential COVID-19 cases) and clinical data (stigma labeling, medication change discussion). We report precision, recall, and F1 scores with 95% confidence intervals for all model-task combinations. Our findings reveal significant performance variability between LLMs, with DeepSeekV3 emerging as the strongest overall performer, achieving the highest F1 scores in four tasks. Notably, models generally performed better on social media tasks compared to clinical data tasks, suggesting potential domain-specific challenges. GEMMA-3-27B-IT demonstrated exceptionally high recall despite its smaller parameter count, while LLAMA4-109B showed surprisingly underwhelming performance compared to its predecessor LLAMA3-70B, indicating that larger parameter counts do not guarantee improved classification results. We observed distinct precision-recall trade-offs across models, with some favoring sensitivity over specificity and vice versa. These findings highlight the importance of task-specific model selection for healthcare applications, considering the particular data domain and precision-recall requirements rather than model size alone. As healthcare increasingly integrates AI-driven text classification tools, this comprehensive benchmarking provides valuable guidance for model selection and implementation while underscoring the need for continued evaluation and domain adaptation of LLMs in healthcare contexts.

arxiv情報

著者 Yuting Guo,Abeed Sarker
発行日 2025-05-08 11:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks はコメントを受け付けていません

Re-evaluating Open-ended Evaluation of Large Language Models

要約

評価は、伝統的に特定のスキルの候補者のランキングに焦点を当ててきました。
大規模な言語モデル(LLM)などの現代のジェネラリストモデルは、このパラダイムを明らかに上回ります。
候補モデルがユーザーがサビされたプロンプトで比較されるオープンエンド評価システムが、一般的なソリューションとして浮上しています。
多くの利点にもかかわらず、現在のELOベースの評価システムは、冗長性に対する感受性のために、意図的または偶発的なデータのバイアスの影響を受けやすく、さらには強化できることを示しています。
この問題に対処するために、評価を3プレイヤーゲームとして提案し、冗長性の堅牢性を確保するために、新しいゲーム理論ソリューションの概念を導入します。
私たちの方法は直感的な評価につながり、LLM開発の競争的景観に関する洞察を提供することを示します。

要約(オリジナル)

Evaluation has traditionally focused on ranking candidates for a specific skill. Modern generalist models, such as Large Language Models (LLMs), decidedly outpace this paradigm. Open-ended evaluation systems, where candidate models are compared on user-submitted prompts, have emerged as a popular solution. Despite their many advantages, we show that the current Elo-based rating systems can be susceptible to and even reinforce biases in data, intentional or accidental, due to their sensitivity to redundancies. To address this issue, we propose evaluation as a 3-player game, and introduce novel game-theoretic solution concepts to ensure robustness to redundancy. We show that our method leads to intuitive ratings and provide insights into the competitive landscape of LLM development.

arxiv情報

著者 Siqi Liu,Ian Gemp,Luke Marris,Georgios Piliouras,Nicolas Heess,Marc Lanctot
発行日 2025-05-08 12:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.GT, cs.LG, stat.ML | Re-evaluating Open-ended Evaluation of Large Language Models はコメントを受け付けていません