PASemiQA: Plan-Assisted Agent for Question Answering on Semi-Structured Data with Text and Relational Information

要約

大規模な言語モデル(LLM)は、さまざまなドメインで質問に答える際に印象的な能力を示していますが、多くの場合、専門的および最新の知識を必要とする質問に関する幻覚の問題に遭遇します。
この制限に対処するために、検索された生成(RAG)技術が提案されており、それが外部のソースから関連情報を取得して回答を通知します。
ただし、既存のRAGメソッドは通常、ベクトル化されたテキストデータベースや知識グラフなどの単一のタイプの外部データに焦点を当てており、テキストとリレーショナル情報の両方を含む半構造化データに関する実際の質問をうまく処理できません。
このギャップを埋めるために、Pasemiqaを紹介します。これは、質問に答えるために半構造化データのテキストとリレーショナル情報を共同で活用する新しいアプローチです。
Pasemiqaは、まず、関連するテキストとリレーショナル情報を特定して半構造化データの質問に答える計画を生成し、次にLLMエージェントを使用して半構造化データを通過し、必要な情報を抽出します。
私たちの経験的結果は、さまざまなドメインからのさまざまな半構造化データセットにわたるPasemiqaの有効性を示しており、半構造化データの質問回答システムの精度と信頼性を改善する可能性を示しています。

要約(オリジナル)

Large language models (LLMs) have shown impressive abilities in answering questions across various domains, but they often encounter hallucination issues on questions that require professional and up-to-date knowledge. To address this limitation, retrieval-augmented generation (RAG) techniques have been proposed, which retrieve relevant information from external sources to inform their responses. However, existing RAG methods typically focus on a single type of external data, such as vectorized text database or knowledge graphs, and cannot well handle real-world questions on semi-structured data containing both text and relational information. To bridge this gap, we introduce PASemiQA, a novel approach that jointly leverages text and relational information in semi-structured data to answer questions. PASemiQA first generates a plan to identify relevant text and relational information to answer the question in semi-structured data, and then uses an LLM agent to traverse the semi-structured data and extract necessary information. Our empirical results demonstrate the effectiveness of PASemiQA across different semi-structured datasets from various domains, showcasing its potential to improve the accuracy and reliability of question answering systems on semi-structured data.

arxiv情報

著者 Hansi Yang,Qi Zhang,Wei Jiang,Jianguo Li
発行日 2025-02-28 14:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PASemiQA: Plan-Assisted Agent for Question Answering on Semi-Structured Data with Text and Relational Information はコメントを受け付けていません

Re-evaluating Theory of Mind evaluation in large language models

要約

大規模な言語モデル(LLM)が心の理論(TOM)を持っているかどうかという問題は、しばしば他人の精神状態について推論する能力として定義されていますが、重要な科学的および公共の関心を引き起こしました。
しかし、LLMSがTOMを所有しているかどうかの証拠は混在しており、最近の評価の成長は収束をもたらしていません。
ここでは、認知科学からインスピレーションを得て、LLMSのTOM評価の状態を再評価します。
LLMSがTOMを持っているかどうかについての意見の相違の主な理由は、モデルが人間の行動と一致すると予想されるべきか、それらの行動の根底にある計算が期待されるべきかどうかの明確さの欠如であると主張します。
また、現在の評価がTOM能力の「純粋な」測定から逸脱している方法を強調し、混乱にも貢献します。
TOMと実用的なコミュニケーションの関係を含む、将来の研究のためのいくつかの方向性について議論することで最後に、人工システムの理解と人間の認知を促進することができます。

要約(オリジナル)

The question of whether large language models (LLMs) possess Theory of Mind (ToM) — often defined as the ability to reason about others’ mental states — has sparked significant scientific and public interest. However, the evidence as to whether LLMs possess ToM is mixed, and the recent growth in evaluations has not resulted in a convergence. Here, we take inspiration from cognitive science to re-evaluate the state of ToM evaluation in LLMs. We argue that a major reason for the disagreement on whether LLMs have ToM is a lack of clarity on whether models should be expected to match human behaviors, or the computations underlying those behaviors. We also highlight ways in which current evaluations may be deviating from ‘pure’ measurements of ToM abilities, which also contributes to the confusion. We conclude by discussing several directions for future research, including the relationship between ToM and pragmatic communication, which could advance our understanding of artificial systems as well as human cognition.

arxiv情報

著者 Jennifer Hu,Felix Sosa,Tomer Ullman
発行日 2025-02-28 14:36:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Re-evaluating Theory of Mind evaluation in large language models はコメントを受け付けていません

Generating patient cohorts from electronic health records using two-step retrieval-augmented text-to-SQL generation

要約

臨床コホートの定義は、患者の募集と観察研究にとって重要ですが、包含/除外基準をSQLクエリに翻訳することは依然として困難でマニュアルです。
基準の解析、2レベルの検索拡張生成と専門知識ベース、医療概念の標準化、およびSQL生成を組み合わせた大規模な言語モデルを利用して、患者の漏斗との患者コホートを回収する自動化システムを提示します。
このシステムは、EHRデータのコホート識別で0.75 F1スコアを達成し、複雑な時間的および論理的な関係を効果的にキャプチャします。
これらの結果は、疫学研究のための自動コホート生成の実現可能性を示しています。

要約(オリジナル)

Clinical cohort definition is crucial for patient recruitment and observational studies, yet translating inclusion/exclusion criteria into SQL queries remains challenging and manual. We present an automated system utilizing large language models that combines criteria parsing, two-level retrieval augmented generation with specialized knowledge bases, medical concept standardization, and SQL generation to retrieve patient cohorts with patient funnels. The system achieves 0.75 F1-score in cohort identification on EHR data, effectively capturing complex temporal and logical relationships. These results demonstrate the feasibility of automated cohort generation for epidemiological research.

arxiv情報

著者 Angelo Ziletti,Leonardo D’Ambrosi
発行日 2025-02-28 14:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Generating patient cohorts from electronic health records using two-step retrieval-augmented text-to-SQL generation はコメントを受け付けていません

Learning diverse attacks on large language models for robust red-teaming and safety tuning

要約

有害な応答を引き出すレッドチーム、または識別プロンプトは、大規模な言語モデル(LLMS)の安全で責任ある展開を確保するための重要なステップです。
攻撃プロンプトの多くのモードに対する効果的な保護を開発するには、多様な攻撃を発見する必要があります。
自動化されたレッドチーミングは通常、強化学習を使用して攻撃者言語モデルを微調整して、標的LLMから望ましくない応答を引き出すプロンプトを生成します。たとえば、補助毒性分類器によって測定されます。
目新しさと多様性を支持する明示的な正則化があっても、既存のアプローチはモードの崩壊に苦しむか、効果的な攻撃を生成しないことを示しています。
柔軟で確率的に原則的な代替品として、Gflownet微調整を使用し、次に二次的なスムージングフェーズを使用して、攻撃者モデルを訓練して、多様で効果的な攻撃プロンプトを生成することを提案します。
私たちの方法によって生成された攻撃は、安全調整の有無にかかわらず、ターゲットLLMの間で適切に転送されない、幅広いターゲットLLMに対して効果的であることがわかります。
最後に、メソッドによって生成されたレッドチーミングプロンプトのデータセットを使用して安全調整されたモデルが、他のRLベースのレッドチーム化アプローチからの攻撃に対して堅牢であることを実証します。

要約(オリジナル)

Red-teaming, or identifying prompts that elicit harmful responses, is a critical step in ensuring the safe and responsible deployment of large language models (LLMs). Developing effective protection against many modes of attack prompts requires discovering diverse attacks. Automated red-teaming typically uses reinforcement learning to fine-tune an attacker language model to generate prompts that elicit undesirable responses from a target LLM, as measured, for example, by an auxiliary toxicity classifier. We show that even with explicit regularization to favor novelty and diversity, existing approaches suffer from mode collapse or fail to generate effective attacks. As a flexible and probabilistically principled alternative, we propose to use GFlowNet fine-tuning, followed by a secondary smoothing phase, to train the attacker model to generate diverse and effective attack prompts. We find that the attacks generated by our method are effective against a wide range of target LLMs, both with and without safety tuning, and transfer well between target LLMs. Finally, we demonstrate that models safety-tuned using a dataset of red-teaming prompts generated by our method are robust to attacks from other RL-based red-teaming approaches.

arxiv情報

著者 Seanie Lee,Minsu Kim,Lynn Cherif,David Dobre,Juho Lee,Sung Ju Hwang,Kenji Kawaguchi,Gauthier Gidel,Yoshua Bengio,Nikolay Malkin,Moksh Jain
発行日 2025-02-28 14:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Learning diverse attacks on large language models for robust red-teaming and safety tuning はコメントを受け付けていません

Optimizing Large Language Models for ESG Activity Detection in Financial Texts

要約

環境、社会、およびガバナンス(ESG)の要因を企業の意思決定に統合することは、持続可能な金融の基本的な側面です。
ただし、ビジネス慣行が進化する規制の枠組みと一致するようにすることは、依然として永続的な課題です。
持続可能性レポートのアラインメントと特定のESGアクティビティの非財務開示を自動的に評価するためのAI駆動型ソリューションは、このプロセスを大幅にサポートする可能性があります。
しかし、このタスクは、ドメイン固有のコンテキストにおける汎用の大規模な言語モデル(LLM)の制限と、構造化された高品質のデータセットの不足により、複雑なままです。
この論文では、環境活動に関連するテキストを識別する現在の世代LLMの能力を調査します。
さらに、元のデータと合成生成されたデータの組み合わせで微調整することで、そのパフォーマンスを大幅に向上させることができることを実証します。
この目的のために、EU ESG分類法に従って分類された1,325のラベル付きテキストセグメントを含むベンチマークデータセットであるESG-Activitiesを紹介します。
私たちの実験結果は、ESG活性性の微調整が分類の精度を大幅に向上させることを示しています。Llama7BやGemma 7Bなどのオープンモデルは、特定の構成で大規模な独自のソリューションを上回ることを示しています。
これらの調査結果は、高度な自然言語処理技術を通じてESGの透明性とコンプライアンスを強化しようとする金融アナリスト、政策立案者、およびAIの研究者に重要な意味を持っています。

要約(オリジナル)

The integration of Environmental, Social, and Governance (ESG) factors into corporate decision-making is a fundamental aspect of sustainable finance. However, ensuring that business practices align with evolving regulatory frameworks remains a persistent challenge. AI-driven solutions for automatically assessing the alignment of sustainability reports and non-financial disclosures with specific ESG activities could greatly support this process. Yet, this task remains complex due to the limitations of general-purpose Large Language Models (LLMs) in domain-specific contexts and the scarcity of structured, high-quality datasets. In this paper, we investigate the ability of current-generation LLMs to identify text related to environmental activities. Furthermore, we demonstrate that their performance can be significantly enhanced through fine-tuning on a combination of original and synthetically generated data. To this end, we introduce ESG-Activities, a benchmark dataset containing 1,325 labelled text segments classified according to the EU ESG taxonomy. Our experimental results show that fine-tuning on ESG-Activities significantly enhances classification accuracy, with open models such as Llama 7B and Gemma 7B outperforming large proprietary solutions in specific configurations. These findings have important implications for financial analysts, policymakers, and AI researchers seeking to enhance ESG transparency and compliance through advanced natural language processing techniques.

arxiv情報

著者 Mattia Birti,Francesco Osborne,Andrea Maurino
発行日 2025-02-28 14:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CY, cs.IR | Optimizing Large Language Models for ESG Activity Detection in Financial Texts はコメントを受け付けていません

Are All Spanish Doctors Male? Evaluating Gender Bias in German Machine Translation

要約

ドイツの機械翻訳(MT)システムでの職業上のステレオタイプ化と過小評価を評価するために設計された新しい性別バイアス評価テストセットであるWinomtdeを提示します。
ARXIVによって導入された自動評価方法の構築:1906.00591V1、私たちは文法的な性別を持つ言語であるドイツ語にアプローチを拡張します。
Winomtdeデータセットは、性別に関してバランスが取れている288のドイツ文と、ドイツの労働統計を使用して注釈が付けられたステレオタイプで構成されています。
広く使用されている5つのMTシステムと大規模な言語モデルの大規模な評価を実施しています。
私たちの結果は、ほとんどのモデルで持続的なバイアスを明らかにしており、LLMは従来のシステムを上回っています。
データセットと評価コードは、https://github.com/michellekappl/mt_gender_germanで公開されています。

要約(オリジナル)

We present WinoMTDE, a new gender bias evaluation test set designed to assess occupational stereotyping and underrepresentation in German machine translation (MT) systems. Building on the automatic evaluation method introduced by arXiv:1906.00591v1, we extend the approach to German, a language with grammatical gender. The WinoMTDE dataset comprises 288 German sentences that are balanced in regard to gender, as well as stereotype, which was annotated using German labor statistics. We conduct a large-scale evaluation of five widely used MT systems and a large language model. Our results reveal persistent bias in most models, with the LLM outperforming traditional systems. The dataset and evaluation code are publicly available under https://github.com/michellekappl/mt_gender_german.

arxiv情報

著者 Michelle Kappl
発行日 2025-02-28 15:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Are All Spanish Doctors Male? Evaluating Gender Bias in German Machine Translation はコメントを受け付けていません

AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

要約

大規模な言語モデル(LLM)は大規模な規模のコーパスで事前に処理されるため、データ汚染の問題はますます深刻になり、評価中のモデルパフォーマンスの過大評価の可能性につながります。
これに対処するために、評価の信頼性に対するデータ汚染の影響を緩和することを目的とした動的なデータ評価方法であるAdeval(アライメントベースの動的評価)を提案します。
Adevalは、重要な知識ポイントと主要なアイデアを抽出して、動的に生成された質問を静的データのコア概念に合わせます。
また、オンライン検索を活用して、関連する知識ポイントの詳細な説明を提供するため、堅牢な知識サポートを備えた高品質の評価サンプルを作成します。
さらに、Adevalには、質問の数と複雑さを制御するメカニズムが組み込まれ、動的なアライメントと柔軟な調整を可能にします。
これにより、生成された質問が、さまざまな複雑さレベルをサポートしながら、静的データの複雑さと一致することが保証されます。
Bloomの分類に基づいて、Adevalは、6つの認知レベルでLLMの多次元評価を実施しています:記憶、理解、適用、分析、評価、および作成。
複数のデータセットでの実験結果は、Adevalが評価結果に対するデータ汚染の影響を効果的に減らし、評価プロセスの公平性と信頼性の両方を高めることを示しています。

要約(オリジナル)

As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. AdEval extracts key knowledge points and main ideas to align dynamically generated questions with static data’s core concepts. It also leverages online search to provide detailed explanations of related knowledge points, thereby creating high-quality evaluation samples with robust knowledge support. Furthermore, AdEval incorporates mechanisms to control the number and complexity of questions, enabling dynamic alignment and flexible adjustment. This ensures that the generated questions align with the complexity of static data while supporting varied complexity levels. Based on Bloom’s taxonomy, AdEval conducts a multi-dimensional evaluation of LLMs across six cognitive levels: remembering, understanding, applying, analyzing, evaluating, and creating. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.

arxiv情報

著者 Yang Fan
発行日 2025-02-28 15:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models はコメントを受け付けていません

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse

要約

ソーシャルメディアの指数関数的な成長は、デジタル時代の前例を超える情報の作成、普及、吸収の方法を大きく変化させました。
残念ながら、この爆発はまた、ミームのオンライン乱用の大幅な増加をもたらしました。
ミームのマイナスの影響を評価することは、しばしば微妙で暗黙の意味があり、明白なテキストとイメージを通して直接伝えられないため、特に挑戦的です。
これに照らして、多様なマルチモーダルタスクの処理において顕著な能力のために、大きなマルチモーダルモデル(LMM)が焦点として焦点を当てています。
この開発に応えて、私たちの論文は、ミームに現れた社会的虐待の微妙な側面を識別して対応するために、さまざまなLMM(GPT-4Oなど)の能力を徹底的に調べることを目指しています。
暗黙のヘイトスピーチ、性差別、サイバーいじめなどのテーマをカプセル化する6Kを超えるさまざまなミームを含む包括的なミームベンチマーク、ヤギのベンチを紹介します。ヤギのベンチを利用して、LMMSの能力を掘り下げて、憎しみ、女嫌い、攻撃、有害なコンテンツを正確に評価します。
さまざまなLMMにわたる広範な実験は、現在のモデルが依然として安全性の認識に欠陥を示しており、さまざまな形態の暗黙的虐待に対する非感受性を示していることを明らかにしています。
この不足は、安全な人工知能の実現に対する重大な障害を表していると仮定します。
ヤギのベンチと付随するリソースは、https://goatlmm.github.io/で公開されており、この重要な分野で進行中の研究に貢献しています。

要約(オリジナル)

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the online abuse of memes. Evaluating the negative impact of memes is notably challenging, owing to their often subtle and implicit meanings, which are not directly conveyed through the overt text and image. In light of this, large multimodal models (LMMs) have emerged as a focal point of interest due to their remarkable capabilities in handling diverse multimodal tasks. In response to this development, our paper aims to thoroughly examine the capacity of various LMMs (e.g., GPT-4o) to discern and respond to the nuanced aspects of social abuse manifested in memes. We introduce the comprehensive meme benchmark, GOAT-Bench, comprising over 6K varied memes encapsulating themes such as implicit hate speech, sexism, and cyberbullying, etc. Utilizing GOAT-Bench, we delve into the ability of LMMs to accurately assess hatefulness, misogyny, offensiveness, sarcasm, and harmful content. Our extensive experiments across a range of LMMs reveal that current models still exhibit a deficiency in safety awareness, showing insensitivity to various forms of implicit abuse. We posit that this shortfall represents a critical impediment to the realization of safe artificial intelligence. The GOAT-Bench and accompanying resources are publicly accessible at https://goatlmm.github.io/, contributing to ongoing research in this vital field.

arxiv情報

著者 Hongzhan Lin,Ziyang Luo,Bo Wang,Ruichao Yang,Jing Ma
発行日 2025-02-28 15:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse はコメントを受け付けていません

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

要約

大規模な言語モデル(LLMS)は、多様なタスク全体で並外れたパフォーマンスを実証していますが、トレーニングは非常にリソース集中的であり、トレーニングの不安定性などの重要な課題を受けやすいままです。
この不安定性の主な原因は、勾配と損失のスパイクに由来し、学習プロセスを混乱させ、チェックポイントの回復や実験の再開などの費用のかかる介入につながり、非効率性をさらに増幅します。
このホワイトペーパーでは、LLMトレーニング中に観察されたグラデーションスパイクに関する包括的な調査を提示し、複数のアーキテクチャとデータセットにわたってそれらの有病率を明らかにします。
私たちの分析は、これらのスパイクが典型的な勾配よりも最大1000ドルの時間$より大きく、モデルのパフォーマンスが大幅に悪化する可能性があることを示しています。
この問題に対処するために、Momentum Reset SpamであるSpike-Aware Adamを提案します。これは、Momentum ResetおよびSpike-Aware Gradientクリッピングを介してグラデーションスパイクに対抗するように設計された新しいオプティマイザーです。
トレーニング前と微調整の両方を含む広範な実験は、スパムが(1)60Mから1BまでのLLMプレトレーニング、(2)4ビットLLMプレトレーニング、(3)補強学習、(4)時系列を含むさまざまなタスクで一貫してアダムとそのバリアントを上回ることを示しています。
さらに、スパムは、運動量のサブセットのみが維持および更新されるまばらな運動量を有効にすることにより、メモリ効率の高いトレーニングを促進します。
メモリの制約の下で動作する場合、SpamはGaloreやAdam-Miniなどの最先端のメモリ効率の高いオプティマーよりも優れています。
私たちの仕事は、LLMトレーニングにおけるグラデーションスパイクを軽減することの重要性を強調し、大規模なトレーニングの安定性とリソース効率の両方を高める効果的な最適化戦略を導入します。
コードはhttps://github.com/tianjinyellow/spam-optimizer.gitで入手できます

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance across diverse tasks, yet their training remains highly resource-intensive and susceptible to critical challenges such as training instability. A predominant source of this instability stems from gradient and loss spikes, which disrupt the learning process, often leading to costly interventions like checkpoint recovery and experiment restarts, further amplifying inefficiencies. This paper presents a comprehensive investigation into gradient spikes observed during LLM training, revealing their prevalence across multiple architectures and datasets. Our analysis shows that these spikes can be up to $1000\times$ larger than typical gradients, substantially deteriorating model performance. To address this issue, we propose Spike-Aware Adam with Momentum Reset SPAM, a novel optimizer designed to counteract gradient spikes through momentum reset and spike-aware gradient clipping. Extensive experiments, including both pre-training and fine-tuning, demonstrate that SPAM consistently surpasses Adam and its variants across various tasks, including (1) LLM pre-training from 60M to 1B, (2) 4-bit LLM pre-training,(3) reinforcement learning, and (4) Time Series Forecasting. Additionally, SPAM facilitates memory-efficient training by enabling sparse momentum, where only a subset of momentum terms are maintained and updated. When operating under memory constraints, SPAM outperforms state-of-the-art memory-efficient optimizers such as GaLore and Adam-Mini. Our work underscores the importance of mitigating gradient spikes in LLM training and introduces an effective optimization strategy that enhances both training stability and resource efficiency at scale. Code is available at https://github.com/TianjinYellow/SPAM-Optimizer.git

arxiv情報

著者 Tianjin Huang,Ziquan Zhu,Gaojie Jin,Lu Liu,Zhangyang Wang,Shiwei Liu
発行日 2025-02-28 15:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training はコメントを受け付けていません

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

要約

大規模な言語モデル(LLM)は、研究と社会のさまざまな分野を進める上で重要な可能性を示しています。
ただし、LLMSの現在のコミュニティは、特定の基礎スキル(数学やコード生成など)を分析するためのベンチマークに過度に焦点を当てており、コンピューターサイエンス分野の万能評価を無視しています。
このギャップを埋めるために、コンピューターサイエンスにおけるLLMSのパフォーマンスの評価に専念する最初の多言語(英語、中国語、フランス語、ドイツ語)ベンチマークであるCSベンチを紹介します。
CSベンチは、約10Kの細心の注意を払ってキュレーションされたテストサンプルで構成され、コンピューターサイエンスの4つの重要な領域にわたって26のサブフィールドをカバーし、知識と推論のさまざまなタスクフォームと部門を網羅しています。
CSベンチを利用して、30を超える主流LLMの包括的な評価を実施し、CSパフォーマンスとモデルスケールの関係を明らかにします。
また、既存のLLMSの失敗の理由を定量的に分析し、知識の補充やCS固有の推論を含む改善の方向性を強調します。
さらなるクロス容量実験により、コンピューターサイエンスにおけるLLMS機能と数学とコーディングの能力との間に高い相関があることが示されています。
さらに、数学とコーディングに特化した専門家LLMは、いくつかのCSサブフィールドで強力なパフォーマンスを示しています。
今後、CSベンチがCSフィールドでのLLMアプリケーションの基礎として機能し、LLMSの多様な推論能力を評価する新しい道を舗装することを想定しています。
CSベンチデータと評価コードは、https://github.com/csbench/csbenchで入手できます。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant potential in advancing various fields of research and society. However, the current community of LLMs overly focuses on benchmarks for analyzing specific foundational skills (e.g. mathematics and code generation), neglecting an all-round evaluation of the computer science field. To bridge this gap, we introduce CS-Bench, the first multilingual (English, Chinese, French, German) benchmark dedicated to evaluating the performance of LLMs in computer science. CS-Bench comprises approximately 10K meticulously curated test samples, covering 26 subfields across 4 key areas of computer science, encompassing various task forms and divisions of knowledge and reasoning. Utilizing CS-Bench, we conduct a comprehensive evaluation of over 30 mainstream LLMs, revealing the relationship between CS performance and model scales. We also quantitatively analyze the reasons for failures in existing LLMs and highlight directions for improvements, including knowledge supplementation and CS-specific reasoning. Further cross-capability experiments show a high correlation between LLMs’ capabilities in computer science and their abilities in mathematics and coding. Moreover, expert LLMs specialized in mathematics and coding also demonstrate strong performances in several CS subfields. Looking ahead, we envision CS-Bench serving as a cornerstone for LLM applications in the CS field and paving new avenues in assessing LLMs’ diverse reasoning capabilities. The CS-Bench data and evaluation code are available at https://github.com/csbench/csbench.

arxiv情報

著者 Xiaoshuai Song,Muxi Diao,Guanting Dong,Zhengyang Wang,Yujia Fu,Runqi Qiao,Zhexu Wang,Dayuan Fu,Huangxuan Wu,Bin Liang,Weihao Zeng,Yejie Wang,Zhuoma GongQue,Jianing Yu,Qiuna Tan,Weiran Xu
発行日 2025-02-28 15:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery はコメントを受け付けていません