Data-Constrained Synthesis of Training Data for De-Identification

要約

臨床ドメインなどの多くの機密ドメインは、プライバシーリスクのために広く利用可能なデータセットを欠いています。
大規模な言語モデル(LLM)の生成能力の向上により、合成データセットは実行可能なパスを前進させました。
この研究では、臨床ドメインにLLMをドメインに適応させ、有能なエンコーダーベースのNERモデルを使用して個人を識別できる情報のために機械加算された合成臨床テキストを生成します。
合成コーパスは、合成NERモデルをトレーニングするために使用されます。
結果は、合成コーポラを使用したTraining NERモデルが予測パフォーマンスのわずかな低下のみが発生することを示しています。
このプロセスの限界は、スウェーデンとスペインの両方のデータを使用して、体系的なアブレーション研究で調査されています。
私たちの分析は、データ統合のためにLLMをドメインに適応させるのに小さなデータセットで十分であることを示しています。
代わりに、このプロセスの有効性は、元のデータを使用してトレーニングされた機械消費NERモデルのパフォーマンスをほぼ完全に条件としています。

要約(オリジナル)

Many sensitive domains — such as the clinical domain — lack widely available datasets due to privacy risks. The increasing generative capabilities of large language models (LLMs) have made synthetic datasets a viable path forward. In this study, we domain-adapt LLMs to the clinical domain and generate synthetic clinical texts that are machine-annotated with tags for personally identifiable information using capable encoder-based NER models. The synthetic corpora are then used to train synthetic NER models. The results show that training NER models using synthetic corpora incurs only a small drop in predictive performance. The limits of this process are investigated in a systematic ablation study — using both Swedish and Spanish data. Our analysis shows that smaller datasets can be sufficient for domain-adapting LLMs for data synthesis. Instead, the effectiveness of this process is almost entirely contingent on the performance of the machine-annotating NER models trained using the original data.

arxiv情報

著者 Thomas Vakili,Aron Henriksson,Hercules Dalianis
発行日 2025-02-20 16:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Data-Constrained Synthesis of Training Data for De-Identification はコメントを受け付けていません

How to Get Your LLM to Generate Challenging Problems for Evaluation

要約

大規模な言語モデル(LLMS)の進化のペースには、厳密で包括的な評価のための新しいアプローチが必要です。
伝統的な人間の注釈は、高品質で挑戦的な問題を生み出すために関与する複雑さとコストのために、ますます実行不可能になっています。
この作業では、人間の関与なしにLLMを使用して挑戦的な問題を合成するための統合されたフレームワークであるChaseを紹介します。
特定のタスクについて、私たちのアプローチは、よりシンプルなコンポーネントからボトムアップ方法で困難な問題を構築します。
さらに、私たちのフレームワークは、生成プロセスを独立して検証可能なサブタスクに分解し、それにより高レベルの品質と正確性を確保します。
Chaseを実装して、3つの多様なドメインにわたって評価ベンチマークを作成します。(1)ドキュメントベースの質問応答、(2)リポジトリレベルのコード修了、および(3)数学の推論。
これらの合成ベンチマークでの最先端のLLMのパフォーマンスは、40〜60%の精度の範囲であり、それにより、挑戦的な問題を生み出す際のフレームワークの有効性を実証します。
ベンチマークとコードを公開しています。

要約(オリジナル)

The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.

arxiv情報

著者 Arkil Patel,Siva Reddy,Dzmitry Bahdanau
発行日 2025-02-20 16:09:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How to Get Your LLM to Generate Challenging Problems for Evaluation はコメントを受け付けていません

Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup

要約

大規模な言語モデルは、強力なコンテキスト学習機能により、テキストからSQLなどの多くのタスクで優れたパフォーマンスを実証しています。
それらは、テキストからSQLの主流のアプローチになりつつあります。
ただし、これらの方法には、特に複雑な質問に関する人間のパフォーマンスと比較して、依然として大きなギャップがあります。
質問の複雑さが増すと、質問とSQLの間のギャップが増加します。
構造マッピングギャップと語彙マッピングギャップという2つの重要なギャップを特定します。
これらの2つのギャップに取り組むために、LLMSに基づいた効率的なSQL生成パイプラインであるPAS-SQLを提案します。これは、抽象クエリパターン(AQP)とコンテキストスキーママークアップ(CSM)を介してギャップを緩和します。
AQPは、データベース関連の情報を削除することにより、質問の構造パターンを取得することを目的としています。これにより、構造的に類似したデモンストレーションを見つけることができます。
CSMは、質問のデータベース関連のテキストスパンを、字句マッピングのギャップを緩和するデータベース内の特定のテーブルまたは列に関連付けることを目指しています。
クモと鳥のデータセットの実験結果は、提案された方法の有効性を示しています。
具体的には、PAS-SQL + GPT-4Oは、87.9%の実行精度でスパイダーベンチマークに新しい最先端を設定し、実行精度が64.67 \%の鳥データセットで主要な結果を達成します。

要約(オリジナル)

Large language models have demonstrated excellent performance in many tasks, including Text-to-SQL, due to their powerful in-context learning capabilities. They are becoming the mainstream approach for Text-to-SQL. However, these methods still have a significant gap compared to human performance, especially on complex questions. As the complexity of questions increases, the gap between questions and SQLs increases. We identify two important gaps: the structural mapping gap and the lexical mapping gap. To tackle these two gaps, we propose PAS-SQL, an efficient SQL generation pipeline based on LLMs, which alleviates gaps through Abstract Query Pattern (AQP) and Contextual Schema Markup (CSM). AQP aims to obtain the structural pattern of the question by removing database-related information, which enables us to find structurally similar demonstrations. CSM aims to associate database-related text span in the question with specific tables or columns in the database, which alleviates the lexical mapping gap. Experimental results on the Spider and BIRD datasets demonstrate the effectiveness of our proposed method. Specifically, PAS-SQL + GPT-4o sets a new state-of-the-art on the Spider benchmark with an execution accuracy of 87.9\%, and achieves leading results on the BIRD dataset with an execution accuracy of 64.67\%.

arxiv情報

著者 Yonghui Kong,Hongbing Hu,Dan Zhang,Siyuan Chai,Fan Zhang,Wei Wang
発行日 2025-02-20 16:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup はコメントを受け付けていません

I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search

要約

大規模な言語モデル(LLMS)の最近の進歩は、機械学習タスクの自動化において顕著な可能性を示しています。
ただし、既存のLLMベースのエージェントは、多くの場合、低ダイリティおよび最適ではないコード生成に苦労しています。
最近の作業により、これらの問題に対処するためにモンテカルロツリー検索(MCTS)が導入されていますが、制限は生成された思考の質と多様性、およびノー​​ド選択に使用されるスカラーバリューフィードバックメカニズムに持続します。
この研究では、内省的なモンテカルロツリー検索(I-MCTS)を紹介します。これは、親と兄弟ノードのソリューションと結果を綿密に分析する内省的プロセスを通じてツリーノードを繰り返し拡張する新しいアプローチです。
これにより、検索ツリー内のノードの継続的な改良が容易になり、それによって全体的な意思決定プロセスが強化されます。Furthermore、大規模な言語モデル(LLM)ベースの値モデルを統合して、包括的なコンピューターを実行する前に各ノードのソリューションの直接評価を促進します。
ロールアウト。
Q値をLLM推定スコアから実際のパフォーマンススコアにシームレスに遷移するために、ハイブリッドの報酬メカニズムが実装されています。
これにより、高品質のノードを以前に通過できます。さまざまなMLタスクに適用されると、私たちのアプローチは、強力なオープンソースAutomlエージェントと比較してパフォーマンスのA6 \%絶対改善を実証し、エージェントAutomlシステムの強化における有効性を示しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have shown remarkable potential in automating machine learning tasks. However, existing LLM-based agents often struggle with low-diversity and suboptimal code generation. While recent work has introduced Monte Carlo Tree Search (MCTS) to address these issues, limitations persist in the quality and diversity of thoughts generated, as well as in the scalar value feedback mechanisms used for node selection. In this study, we introduce Introspective Monte Carlo Tree Search (I-MCTS), a novel approach that iteratively expands tree nodes through an introspective process that meticulously analyzes solutions and results from parent and sibling nodes. This facilitates a continuous refinement of the node in the search tree, thereby enhancing the overall decision-making process.Furthermore, we integrate a Large Language Model (LLM)-based value model to facilitate direct evaluation of each node’s solution prior to conducting comprehensive computational rollouts. A hybrid rewarding mechanism is implemented to seamlessly transition the Q-value from LLM-estimated scores to actual performance scores. This allows higher-quality nodes to be traversed earlier.Applied to the various ML tasks, our approach demonstrates a6\% absolute improvement in performance compared to the strong open-source AutoML agents, showcasing its effectiveness in enhancing agentic AutoML systems.

arxiv情報

著者 Zujie Liang,Feng Wei,Wujiang Xu,Lin Chen,Yuxi Qian,Xinhui Wu
発行日 2025-02-20 16:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search はコメントを受け付けていません

metabench — A Sparse Benchmark of Reasoning and Knowledge in Large Language Models

要約

大規模な言語モデル(LLMS)は、さまざまなタスクの能力が異なります。
Open LLMリーダーボードなどのイニシアチブは、いくつかの大きなベンチマーク(LLMが正しくまたは誤って応答できるテスト項目のセット)でこれらの違いを定量化することを目的としています。
ただし、ベンチマークスコア内およびベンチマークスコア間の高い相関関係は、(1)これらのベンチマークが測定する一般的な基礎能力の小さなセットが存在することを示唆しています。
N> 5000 LLMSのデータを使用して、6つのベンチマーク、ARC、GSM8K、Hellaswag、MMLU、Truthfulqa、およびWinograndeの最も有益なアイテムを識別します(D = 28,632アイテムの合計)。
それらから、6つのベンチマークすべての元のサイズの3%未満のスパースベンチマークであるメタベンチを蒸留します。
この新しいスパースベンチマークは、基礎となるベンチマーク固有の能力の推定器を生成することにより、ポイントスコアを超えています。
これらの推定量(1)を使用して、各元の個々のベンチマークスコアを平均して1.24%のルート平均誤差(RMSE)で再構築できることを示します。
合計スコアとスピアマンの相関がr = 0.94である単一の根本的な共通要因を持っています。

要約(オリジナル)

Large Language Models (LLMs) vary in their abilities on a range of tasks. Initiatives such as the Open LLM Leaderboard aim to quantify these differences with several large benchmarks (sets of test items to which an LLM can respond either correctly or incorrectly). However, high correlations within and between benchmark scores suggest that (1) there exists a small set of common underlying abilities that these benchmarks measure, and (2) items tap into redundant information and the benchmarks may thus be considerably compressed. We use data from n > 5000 LLMs to identify the most informative items of six benchmarks, ARC, GSM8K, HellaSwag, MMLU, TruthfulQA and WinoGrande (with d = 28,632 items in total). From them we distill a sparse benchmark, metabench, that has less than 3% of the original size of all six benchmarks combined. This new sparse benchmark goes beyond point scores by yielding estimators of the underlying benchmark-specific abilities. We show that these estimators (1) can be used to reconstruct each original individual benchmark score with, on average, 1.24% root mean square error (RMSE), (2) reconstruct the original total score with 0.58% RMSE, and (3) have a single underlying common factor whose Spearman correlation with the total score is r = 0.94.

arxiv情報

著者 Alex Kipnis,Konstantinos Voudouris,Luca M. Schulze Buschoff,Eric Schulz
発行日 2025-02-20 16:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | metabench — A Sparse Benchmark of Reasoning and Knowledge in Large Language Models はコメントを受け付けていません

Data-Efficient Pretraining with Group-Level Data Influence Modeling

要約

データ効率の高い事前脱出は、スケーリング法則を高める大きな可能性を示しています。
このペーパーでは、効果的な事前トレーニングデータをグループレベルでキュレーションし、独立した貢献者としてではなく、一連のデータポイントを全体として扱う必要があると主張しています。
それを達成するために、グループレベルのデータユーティリティをキャプチャおよび最適化する新しいデータ効率の良い事前削除方法であるグループレベルのデータに影響を与えるモデリング(グループメイト)を提案します。
具体的には、グループメイトは、データセットを使用して事前トレーニングモデルを局所的に調査することにより、Oracleグループレベルの影響を収集します。
その後、関係データに影響を与えて、個々の影響の関係加重集計としてオラクルを近似するためにモデルに影響を与えます。
微調整されたモデルは、グループレベルの影響予測を最大化することにより、データサブセットを選択し、効率的な推論を可能にする影響を受けたクラスタリングを使用します。
DCLMベンチマークでの実験は、グループメイトがDCLMベースラインよりも22のダウンストリームタスクで10%の相対コアスコアの改善を達成し、個人の影響ベースの方法で5%を達成し、新しい最先端を確立することを示しています。
さらなる分析は、データポイント間の複雑な相互作用をキャプチャする際のリレーショナルデータに影響モデルの有効性を強調しています。

要約(オリジナル)

Data-efficient pretraining has shown tremendous potential to elevate scaling laws. This paper argues that effective pretraining data should be curated at the group level, treating a set of data points as a whole rather than as independent contributors. To achieve that, we propose Group-Level Data Influence Modeling (Group-MATES), a novel data-efficient pretraining method that captures and optimizes group-level data utility. Specifically, Group-MATES collects oracle group-level influences by locally probing the pretraining model with data sets. It then fine-tunes a relational data influence model to approximate oracles as relationship-weighted aggregations of individual influences. The fine-tuned model selects the data subset by maximizing its group-level influence prediction, with influence-aware clustering to enable efficient inference. Experiments on the DCLM benchmark demonstrate that Group-MATES achieves a 10% relative core score improvement on 22 downstream tasks over DCLM-Baseline and 5% over individual-influence-based methods, establishing a new state-of-the-art. Further analyses highlight the effectiveness of relational data influence models in capturing intricate interactions between data points.

arxiv情報

著者 Zichun Yu,Fei Peng,Jie Lei,Arnold Overwijk,Wen-tau Yih,Chenyan Xiong
発行日 2025-02-20 16:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Data-Efficient Pretraining with Group-Level Data Influence Modeling はコメントを受け付けていません

Entity Framing and Role Portrayal in the News

要約

ニュース記事で、エンティティのフレーミングと役割の描写に注釈が付けられた新しい多言語階層コーパスを紹介します。
データセットは、ストーリーテリング要素に触発されたユニークな分類法を使用します。これは、主人公、敵対者、イノセントの3つの主要なカテゴリにネストされた22の細かい役割、またはアーキタイプで構成されています。
各アーキタイプは慎重に定義されており、主人公のためのガーディアン、mart教者、負け犬などのエンティティの微妙な描写を捉えています。
敵対者のための暴君、詐欺師、偏屈者。
犠牲者、スケープゴート、そして罪のない人のために悪用されました。
データセットには、ウクライナとロシアの戦争と気候変動という2つの重要な領域に焦点を当てた5つの言語(ブルガリア語、英語、ヒンディー語、ヨーロッパ、ヨーロッパ、ロシア語、ロシア語)の1,378の最近のニュース記事が含まれています。
5,800を超えるエンティティに、役割ラベルが注釈されています。
このデータセットは、役割の描写の研究のための貴重なリソースとして機能し、ニュース分析に幅広い意味を持っています。
データセットと注釈プロセスの特性について説明し、ドキュメントのレベル、段落、および
文。

要約(オリジナル)

We introduce a novel multilingual hierarchical corpus annotated for entity framing and role portrayal in news articles. The dataset uses a unique taxonomy inspired by storytelling elements, comprising 22 fine-grained roles, or archetypes, nested within three main categories: protagonist, antagonist, and innocent. Each archetype is carefully defined, capturing nuanced portrayals of entities such as guardian, martyr, and underdog for protagonists; tyrant, deceiver, and bigot for antagonists; and victim, scapegoat, and exploited for innocents. The dataset includes 1,378 recent news articles in five languages (Bulgarian, English, Hindi, European Portuguese, and Russian) focusing on two critical domains of global significance: the Ukraine-Russia War and Climate Change. Over 5,800 entity mentions have been annotated with role labels. This dataset serves as a valuable resource for research into role portrayal and has broader implications for news analysis. We describe the characteristics of the dataset and the annotation process, and we report evaluation results on fine-tuned state-of-the-art multilingual transformers and hierarchical zero-shot learning using LLMs at the level of a document, a paragraph, and a sentence.

arxiv情報

著者 Tarek Mahmoud,Zhuohan Xie,Dimitar Dimitrov,Nikolaos Nikolaidis,Purificação Silvano,Roman Yangarber,Shivam Sharma,Elisa Sartori,Nicolas Stefanovitch,Giovanni Da San Martino,Jakub Piskorski,Preslav Nakov
発行日 2025-02-20 16:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Entity Framing and Role Portrayal in the News はコメントを受け付けていません

Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation

要約

さまざまなNLPタスクにおける大規模な言語モデル(LLM)の顕著な能力にもかかわらず、パラメトリックな知識が限られており、ドメイン固有の専門知識がないため、幻覚に対して脆弱なままです。
検索された生成(RAG)は、LLMSの知識ベースを強化するために外部ドキュメント検索を組み込むことにより、この課題に対処します。
このアプローチでは、RAGはクエリに応じて外部コーパスからドキュメントチャンクを取得します。クエリは、ダウンストリーム言語モデルのコンテキストとして使用されて回答を生成します。
ただし、これらの検索された知識源には、多くの場合、無関係または誤った情報が含まれており、下流タスクにおけるRAGの有効性を損なうことが含まれます。
この制限を克服するために、ジェネレーターに供給する前に外部の知識ソースを改良するように設計されたコンパクトで効率的でプラグ可能なモジュールを導入します。
モジュールは、最も関連性が高くサポート的な情報を抽出し、簡潔なクエリ固有の形式に再編成することにより、取得したコンテンツを再構築します。
3段階のトレーニングパラダイム – 監視された微調整、対照的なマルチタスク学習、および強化学習ベースのアライメントを含む – は、重要な知識を優先し、発電機の好みに合わせます。
この方法により、LLMはより正確で信頼性が高く、文脈的に適切な出力を生成できます。

要約(オリジナル)

Despite the remarkable capabilities of Large Language Models (LLMs) in various NLP tasks, they remain vulnerable to hallucinations due to their limited parametric knowledge and lack of domain-specific expertise. Retrieval-Augmented Generation (RAG) addresses this challenge by incorporating external document retrieval to augment the knowledge base of LLMs. In this approach, RAG retrieves document chunks from an external corpus in response to a query, which are then used as context for the downstream language model to generate an answer. However, these retrieved knowledge sources often include irrelevant or erroneous information, undermining the effectiveness of RAG in downstream tasks. To overcome this limitation, we introduce a compact, efficient, and pluggable module designed to refine external knowledge sources before feeding them to the generator. The module reconstructs retrieved content by extracting the most relevant and supportive information and reorganising it into a concise, query-specific format. Through a three-stage training paradigm – comprising supervised fine-tuning, contrastive multi-task learning, and reinforcement learning-based alignment – it prioritises critical knowledge and aligns it with the generator’s preferences. This method enables LLMs to produce outputs that are more accurate, reliable, and contextually appropriate.

arxiv情報

著者 Sha Li,Naren Ramakrishnan
発行日 2025-02-20 16:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation はコメントを受け付けていません

Sentence Smith: Formally Controllable Text Transformation and its Application to Evaluation of Text Embedding Models

要約

テキストの意味の制御および指定された操作を可能にするSmith Smithフレームワークを提案します。
これは、3つの主要な手順で構成されています。1。セマンティックグラフに文を解析する、2。人間が設計したセマンティック操作ルールを適用し、3。操作グラフからテキストを生成します。
最終的なフィルタリングステップ(4.)により、適用された変換の有効性が保証されます。
アプリケーション調査でSmith Smithの有用性を実証するために、それを使用して、テキストの埋め込みモデルに挑戦するハードネガティブペアを生成します。
制御可能な生成により、さまざまなタイプのセマンティックシフトを明確に分離できるようになるため、広く使用されているテキスト埋め込みモデルの特定の長所と短所についてより深い洞察を得ることができ、言語現象が不透明のままである現在のベンチマークの問題にも対処できます。
人間の検証は、スミスの文によって生成された世代が非常に正確であることを確認しています。

要約(オリジナル)

We propose the Sentence Smith framework that enables controlled and specified manipulation of text meaning. It consists of three main steps: 1. Parsing a sentence into a semantic graph, 2. Applying human-designed semantic manipulation rules, and 3. Generating text from the manipulated graph. A final filtering step (4.) ensures the validity of the applied transformation. To demonstrate the utility of Sentence Smith in an application study, we use it to generate hard negative pairs that challenge text embedding models. Since the controllable generation makes it possible to clearly isolate different types of semantic shifts, we can gain deeper insights into the specific strengths and weaknesses of widely used text embedding models, also addressing an issue in current benchmarking where linguistic phenomena remain opaque. Human validation confirms that the generations produced by Sentence Smith are highly accurate.

arxiv情報

著者 Hongji Li,Andrianos Michail,Reto Gubelmann,Simon Clematide,Juri Opitz
発行日 2025-02-20 17:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sentence Smith: Formally Controllable Text Transformation and its Application to Evaluation of Text Embedding Models はコメントを受け付けていません

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

要約

大規模な言語モデル(LLMS)は、数学、物理学、コンピューターサイエンスなどの主流の学術分野で顕著な習熟度を示しています。
ただし、人間の知識には、既存のベンチマークの範囲をはるかに超える200を超える専門分野が含まれます。
これらの専門分野の多くにおけるLLMの能力は、特に産業、農業、およびサービス指向の分野において、不十分に評価されています。
このギャップに対処するために、285の分野で大学院レベルの知識と推論能力を評価する包括的なベンチマークであるSuperGPQAを提示します。
当社のベンチマークは、LLM応答と専門家のフィードバックの両方に基づいた反復改良により、些細なまたは曖昧な質問を排除するために、新しいヒューマンLLM共同溶融フィルタリングメカニズムを採用しています。
私たちの実験結果は、多様な知識ドメイン全体で現在の最先端のLLMのパフォーマンスを改善するための重要な余地を明らかにしています(たとえば、推論に焦点を当てたモデルDeepSeek-R1は、SuperGPQAで61.82%の最高精度を達成しました)。
現在のモデル機能と人工的な一般情報のギャップ。
さらに、80を超える専門家アノテーターとインタラクティブな人間の共同体系を含む大規模な注釈プロセスの管理から包括的な洞察を提示し、同等の範囲の将来の研究イニシアチブのための貴重な方法論的ガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

arxiv情報

著者 M-A-P Team,Xinrun Du,Yifan Yao,Kaijing Ma,Bingli Wang,Tianyu Zheng,Kang Zhu,Minghao Liu,Yiming Liang,Xiaolong Jin,Zhenlin Wei,Chujie Zheng,Kaixing Deng,Shuyue Guo,Shian Jia,Sichao Jiang,Yiyan Liao,Rui Li,Qinrui Li,Sirun Li,Yizhi Li,Yunwen Li,Dehua Ma,Yuansheng Ni,Haoran Que,Qiyao Wang,Zhoufutu Wen,Siwei Wu,Tianshun Xing,Ming Xu,Zhenzhu Yang,Zekun Moore Wang,Junting Zhou,Yuelin Bai,Xingyuan Bu,Chenglin Cai,Liang Chen,Yifan Chen,Chengtuo Cheng,Tianhao Cheng,Keyi Ding,Siming Huang,Yun Huang,Yaoru Li,Yizhe Li,Zhaoqun Li,Tianhao Liang,Chengdong Lin,Hongquan Lin,Yinghao Ma,Zhongyuan Peng,Zifan Peng,Qige Qi,Shi Qiu,Xingwei Qu,Yizhou Tan,Zili Wang,Chenqing Wang,Hao Wang,Yiya Wang,Yubo Wang,Jiajun Xu,Kexin Yang,Ruibin Yuan,Yuanhao Yue,Tianyang Zhan,Chun Zhang,Jingyang Zhang,Xiyue Zhang,Xingjian Zhang,Yue Zhang,Yongchi Zhao,Xiangyu Zheng,Chenghua Zhong,Yang Gao,Zhoujun Li,Dayiheng Liu,Qian Liu,Tianyu Liu,Shiwen Ni,Junran Peng,Yujia Qin,Wenbo Su,Guoyin Wang,Shi Wang,Jian Yang,Min Yang,Meng Cao,Xiang Yue,Zhaoxiang Zhang,Wangchunshu Zhou,Jiaheng Liu,Qunshu Lin,Wenhao Huang,Ge Zhang
発行日 2025-02-20 17:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines はコメントを受け付けていません