MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports

要約

医師も患者も、大規模な言語モデル(LLM)を使用して臨床症例を診断するようになります。
ただし、最終的な回答によって正しさを客観的に定義できる数学やコーディングなどのドメインとは異なり、医療診断には結果と推論プロセスの両方が正確である必要があります。
現在、MEDQAやMMLUなどの広く使用されている医療ベンチマークは、臨床推論プロセスの品質と忠実さを見落とす最終回答の精度のみを評価しています。
この制限に対処するために、LLMSを評価するための最初のオープンアクセスデータセットであるMedcaserasoningを紹介します。
データセットには、14,489の診断質問と回答のケースが含まれており、それぞれがオープンアクセスの医療症例報告から派生した詳細な推論ステートメントと組み合わされています。
MedCaseraseasoningの最先端の推論LLMを評価し、診断と推論に重要な欠点を見つけます。たとえば、最高のパフォーマンスのオープンソースモデルであるDeepSeek-R1は、臨床医の推論声明の64%のみを達成し、臨床医の推論声明の64%のみを達成します。
ただし、MedCaserasiningから導き出された推論トレースでの微調整LLMは、診断精度と臨床推論リコールがそれぞれ29%と41%の平均相対ゲインによって大幅に改善されることを実証します。
オープンソースデータセット、コード、およびモデルは、https://github.com/kevinwu23/stanford-medcaseraseasoningで入手できます。

要約(オリジナル)

Doctors and patients alike increasingly use Large Language Models (LLMs) to diagnose clinical cases. However, unlike domains such as math or coding, where correctness can be objectively defined by the final answer, medical diagnosis requires both the outcome and the reasoning process to be accurate. Currently, widely used medical benchmarks like MedQA and MMLU assess only accuracy in the final answer, overlooking the quality and faithfulness of the clinical reasoning process. To address this limitation, we introduce MedCaseReasoning, the first open-access dataset for evaluating LLMs on their ability to align with clinician-authored diagnostic reasoning. The dataset includes 14,489 diagnostic question-and-answer cases, each paired with detailed reasoning statements derived from open-access medical case reports. We evaluate state-of-the-art reasoning LLMs on MedCaseReasoning and find significant shortcomings in their diagnoses and reasoning: for instance, the top-performing open-source model, DeepSeek-R1, achieves only 48% 10-shot diagnostic accuracy and mentions only 64% of the clinician reasoning statements (recall). However, we demonstrate that fine-tuning LLMs on the reasoning traces derived from MedCaseReasoning significantly improves diagnostic accuracy and clinical reasoning recall by an average relative gain of 29% and 41%, respectively. The open-source dataset, code, and models are available at https://github.com/kevinwu23/Stanford-MedCaseReasoning.

arxiv情報

著者 Kevin Wu,Eric Wu,Rahul Thapa,Kevin Wei,Angela Zhang,Arvind Suresh,Jacqueline J. Tao,Min Woo Sun,Alejandro Lozano,James Zou
発行日 2025-05-20 15:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports はコメントを受け付けていません

Pivot Language for Low-Resource Machine Translation

要約

特定の言語のペアは、サイズが大きく、ドメインが多様な平行なコーパスの欠如に悩まされています。
これが克服される方法の1つは、ピボット言語を使用することです。
この論文では、ヒンディー語をピボット言語として使用して、ネパールを英語に翻訳します。
ヒンディー語をピボットの良い候補者にしている理由について説明します。
ピボット言語を使用する方法について説明し、ネパールを英語に翻訳するために、譲渡方法(完全に監視された)と逆翻訳(半監視)(半監視)の2つのアプローチを使用します。
前者を使用して、14.2のDevTestセットSacrebleuスコアを達成することができます。これにより、(Guzman et al。、2019)が報告したベースライン完全な監視スコアが6.6ポイント増加します。
私たちは15.1の半監視されたベースラインスコアをわずかに下回っていますが、このパフォーマンスの低いものを引き起こした可能性のあるものについて説明し、将来の仕事の範囲を示唆しています。

要約(オリジナル)

Certain pairs of languages suffer from lack of a parallel corpus which is large in size and diverse in domain. One of the ways this is overcome is via use of a pivot language. In this paper we use Hindi as a pivot language to translate Nepali into English. We describe what makes Hindi a good candidate for the pivot. We discuss ways in which a pivot language can be used, and use two such approaches – the Transfer Method (fully supervised) and Backtranslation (semi-supervised) – to translate Nepali into English. Using the former, we are able to achieve a devtest Set SacreBLEU score of 14.2, which improves the baseline fully supervised score reported by (Guzman et al., 2019) by 6.6 points. While we are slightly below the semi-supervised baseline score of 15.1, we discuss what may have caused this under-performance, and suggest scope for future work.

arxiv情報

著者 Abhimanyu Talwar,Julien Laasri
発行日 2025-05-20 16:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG, I.2.7 | Pivot Language for Low-Resource Machine Translation はコメントを受け付けていません

Designing and Contextualising Probes for African Languages

要約

アフリカの言語の前提条件モデル(PLM)は継続的に改善されていますが、これらの進歩の背後にある理由は不明のままです。
この論文では、アフリカ言語に関する言語知識のためのPLMSの調査に関する最初の体系的な調査を提示します。
類型的に多様なアフリカ言語の6つのレイヤーワイズプローブをトレーニングして、言語機能がどのように分散されるかを分析します。
また、Masakhaposデータセットのプローブパフォーマンスを解釈する方法である制御タスクも設計します。
African Languagesがターゲット言語に関するより多くの言語情報をエンコードして、大規模な多言語PLMSよりもエンコードするためにPLMSが適合していることがわかります。
我々の結果は、トークンレベルの構文情報が中間層からラスト層に集中しているという以前の発見を再確認し、文レベルのセマンティック情報はすべての層に分配されています。
制御タスクとプロービングベースラインを通じて、パフォーマンスが記憶をプローブするのではなく、PLMの内部知識を反映していることを確認します。
私たちの研究では、確立された解釈性技術をアフリカ言語PLMに適用しています。
そうすることで、アクティブな学習や多言語適応などの戦略の成功の根底にある内部メカニズムを強調します。

要約(オリジナル)

Pretrained language models (PLMs) for African languages are continually improving, but the reasons behind these advances remain unclear. This paper presents the first systematic investigation into probing PLMs for linguistic knowledge about African languages. We train layer-wise probes for six typologically diverse African languages to analyse how linguistic features are distributed. We also design control tasks, a way to interpret probe performance, for the MasakhaPOS dataset. We find PLMs adapted for African languages to encode more linguistic information about target languages than massively multilingual PLMs. Our results reaffirm previous findings that token-level syntactic information concentrates in middle-to-last layers, while sentence-level semantic information is distributed across all layers. Through control tasks and probing baselines, we confirm that performance reflects the internal knowledge of PLMs rather than probe memorisation. Our study applies established interpretability techniques to African-language PLMs. In doing so, we highlight the internal mechanisms underlying the success of strategies like active learning and multilingual adaptation.

arxiv情報

著者 Wisdom Aduah,Francois Meyer
発行日 2025-05-20 16:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Designing and Contextualising Probes for African Languages はコメントを受け付けていません

Counterspeech the ultimate shield! Multi-Conditioned Counterspeech Generation through Attributed Prefix Learning

要約

counterspeechは、オンラインでヘイトスピーチと戦うための強力なツールであることが証明されています。
以前の研究では、特定の意図のみを条件付けられたカウンタースピーチの生成に焦点を当ててきました(単一の属性)。
ただし、複数の属性を同時に考慮した全体的なアプローチは、より微妙で効果的な応答をもたらす可能性があります。
ここでは、優先最適化を備えたHipproの階層的プレフィックス学習を紹介します。これは、第1フェーズのカウンタースピーチ生成プロセス中に階層的に最適化された属性固有のプレフィックスエンミングスペースの有効性を利用する新しい2段階のフレームワークです。
その後、参照と報酬のない好みの両方の最適化の両方を組み込んで、より建設的なカウンタースピーチを生成します。
さらに、5つのアノテーターによる感情ラベルの13,973のすべてのカウンタースピーチインスタンスに注釈を付けることにより、IntentConanv2を拡張します。
Hipproは、階層的なプレフィックス最適化を活用して、これらのデュアル属性を効果的に統合します。
広範な評価は、Hipproがいくつかのベースラインモデルと比較して、それぞれRouge-1、Rouge-2、およびRouge-Lの3%、〜2%、〜3%の改善をそれぞれ38%改善し、それぞれ38%の改善を達成することを示しています。
人間の評価は、私たちのアプローチの優位性をさらに実証し、生成されたカウンタースピーチの関連性と適切性の強化を強調しています。
この作業は、counterspeech生成システムの有効性を進める際の多属性条件付けの可能性を強調しています。

要約(オリジナル)

Counterspeech has proven to be a powerful tool to combat hate speech online. Previous studies have focused on generating counterspeech conditioned only on specific intents (single attributed). However, a holistic approach considering multiple attributes simultaneously can yield more nuanced and effective responses. Here, we introduce HiPPrO, Hierarchical Prefix learning with Preference Optimization, a novel two-stage framework that utilizes the effectiveness of attribute-specific prefix embedding spaces hierarchically optimized during the counterspeech generation process in the first phase. Thereafter, we incorporate both reference and reward-free preference optimization to generate more constructive counterspeech. Furthermore, we extend IntentCONANv2 by annotating all 13,973 counterspeech instances with emotion labels by five annotators. HiPPrO leverages hierarchical prefix optimization to integrate these dual attributes effectively. An extensive evaluation demonstrates that HiPPrO achieves a ~38 % improvement in intent conformity and a ~3 %, ~2 %, ~3 % improvement in Rouge-1, Rouge-2, and Rouge-L, respectively, compared to several baseline models. Human evaluations further substantiate the superiority of our approach, highlighting the enhanced relevance and appropriateness of the generated counterspeech. This work underscores the potential of multi-attribute conditioning in advancing the efficacy of counterspeech generation systems.

arxiv情報

著者 Aswini Kumar Padhi,Anil Bandhakavi,Tanmoy Chakraborty
発行日 2025-05-20 16:27:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Counterspeech the ultimate shield! Multi-Conditioned Counterspeech Generation through Attributed Prefix Learning はコメントを受け付けていません

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

要約

大規模な言語モデル(LLMS)は、堅牢な一般化可能なアルゴリズムを学習することにより、推論タスクを解決しますか、それともトレーニングデータを記憶していますか?
この質問を調査するために、代表的なタスクとして算術推論を使用します。
因果分析を使用して、モデルの基本的な算術ロジックの動作のほとんどを説明し、その機能を調べるモデル(回路)のサブセットを特定します。
個々の回路ニューロンのレベルをズームインすることにより、単純なヒューリスティックを実装する重要なニューロンのまばらなセットを発見します。
各ヒューリスティックは、数値入力パターンを識別し、対応する回答を出力します。
これらのヒューリスティックニューロンの組み合わせは、正しい算術答えを生成するために使用されるメカニズムであると仮定します。
これをテストするために、各ニューロンを、オペランドが特定の範囲内に収まるときに活性化するニューロンなど、いくつかのヒューリスティックなタイプに分類し、これらのヒューリスティックタイプの秩序化されていない組み合わせが、算術プロンプトでのモデルの精度のほとんどを説明するメカニズムであることがわかります。
最後に、このメカニズムがトレーニングの早い段階で算術精度の主な原因として表示されることを実証します。
全体として、いくつかのLLMにわたる実験結果は、LLMが堅牢なアルゴリズムも暗記も使用しない算術を実行することを示しています。
むしろ、彼らは「ヒューリスティックの袋」に依存しています。

要約(オリジナル)

Do large language models (LLMs) solve reasoning tasks by learning robust generalizable algorithms, or do they memorize training data? To investigate this question, we use arithmetic reasoning as a representative task. Using causal analysis, we identify a subset of the model (a circuit) that explains most of the model’s behavior for basic arithmetic logic and examine its functionality. By zooming in on the level of individual circuit neurons, we discover a sparse set of important neurons that implement simple heuristics. Each heuristic identifies a numerical input pattern and outputs corresponding answers. We hypothesize that the combination of these heuristic neurons is the mechanism used to produce correct arithmetic answers. To test this, we categorize each neuron into several heuristic types-such as neurons that activate when an operand falls within a certain range-and find that the unordered combination of these heuristic types is the mechanism that explains most of the model’s accuracy on arithmetic prompts. Finally, we demonstrate that this mechanism appears as the main source of arithmetic accuracy early in training. Overall, our experimental results across several LLMs show that LLMs perform arithmetic using neither robust algorithms nor memorization; rather, they rely on a ‘bag of heuristics’.

arxiv情報

著者 Yaniv Nikankin,Anja Reusch,Aaron Mueller,Yonatan Belinkov
発行日 2025-05-20 16:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T5, cs.CL, I.2.7 | Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics はコメントを受け付けていません

TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring

要約

全体的な自動エッセイスコアリング(AES)に関する研究は長期に及んでいます。
しかし、個々の特性に従ってエッセイを評価するための注目の顕著な注意があります。
この作業では、一般的でありながら根本的な特性に固有の新しい特性固有のルーブリックベースのクロスプロムプトAESフレームワークであるTratesを提案します。
フレームワークは、特性グレーディングルーブリックを利用して特性固有の機能(評価の質問で表される)を生成する大きな言語モデル(LLM)を活用し、エッセイを与えられた機能を評価します。
特性固有の機能は、最終的には一般的なライティング品質およびプロンプト固有の機能と組み合わされ、目に見えないプロンプトからのエッセイの特性スコアを予測する単純な古典的回帰モデルをトレーニングします。
実験は、Tratesが広く使用されているデータセット上のすべての特性にわたって新しい最先端のパフォーマンスを達成し、生成されたLLMベースの機能が最も重要であることを示しています。

要約(オリジナル)

Research on holistic Automated Essay Scoring (AES) is long-dated; yet, there is a notable lack of attention for assessing essays according to individual traits. In this work, we propose TRATES, a novel trait-specific and rubric-based cross-prompt AES framework that is generic yet specific to the underlying trait. The framework leverages a Large Language Model (LLM) that utilizes the trait grading rubrics to generate trait-specific features (represented by assessment questions), then assesses those features given an essay. The trait-specific features are eventually combined with generic writing-quality and prompt-specific features to train a simple classical regression model that predicts trait scores of essays from an unseen prompt. Experiments show that TRATES achieves a new state-of-the-art performance across all traits on a widely-used dataset, with the generated LLM-based features being the most significant.

arxiv情報

著者 Sohaila Eltanbouly,Salam Albatarni,Tamer Elsayed
発行日 2025-05-20 16:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring はコメントを受け付けていません

Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning

要約

長い考え方(長期コット)の推論はLLMSの精度を向上させますが、その冗長で自己反射的なスタイルは、しばしば小さな言語モデル(SLM)への効果的な蒸留を妨げます。
能力アラインメントのレンズを介してロングコット圧縮を再検討し、次のように尋ねます。プルーニングは推論を改善できますか?
ロングコットをロジックグラフに変換し、自己検証の制約の下で低有効性の推論ステップを選択的に剪定する構造認識フレームワークであるPrune-on-Logicを提案します。
チェーン全体、コア推論、および検証をターゲットにした3つの剪定戦略にわたる体系的な分析により、剪定検証ステップにより、推論コストを削減し、トークンレベルのベースラインを上回り、非圧縮微調整を上回る一貫した精度の向上が得られます。
対照的に、剪定の推論またはオールチェーンステップはパフォーマンスを低下させ、小さなモデルが短いコットからではなく、意味的にleanせたコットからの恩恵を受けることを明らかにします。
私たちの調査結果は、COTの推論をSLM容量に合わせるための構造最適化戦略としての剪定を強調しています。

要約(オリジナル)

Long chain-of-thought (Long-CoT) reasoning improves accuracy in LLMs, yet its verbose, self-reflective style often hinders effective distillation into small language models (SLMs). We revisit Long-CoT compression through the lens of capability alignment and ask: Can pruning improve reasoning? We propose Prune-on-Logic, a structure-aware framework that transforms Long-CoT into logic graphs and selectively prunes low-utility reasoning steps under self-verification constraints. Through systematic analysis across three pruning strategies — targeting entire chains, core reasoning, and verification — we find that pruning verification steps yields consistent accuracy gains while reducing inference cost, outperforming token-level baselines and uncompressed fine-tuning. In contrast, pruning reasoning or all-chain steps degrades performance, revealing that small models benefit not from shorter CoTs, but from semantically leaner ones. Our findings highlight pruning as a structural optimization strategy for aligning CoT reasoning with SLM capacity.

arxiv情報

著者 Shangziqi Zhao,Jiahao Yuan,Guisong Yang,Usman Naseem
発行日 2025-05-20 16:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning はコメントを受け付けていません

Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning

要約

大規模な言語モデル(LLM)は顕著な能力を示しますが、重大な安全性とプライバシーリスクも導入します。
現在の緩和戦略は、多くの場合、危険なシナリオでコンテキストの推論能力を維持できません。
代わりに、範囲を制限するLLMSを保護するために、敏感なパターンマッチングに大きく依存しています。
さらに、彼らは確立された安全性とプライバシー基準を見落としており、法的コンプライアンスの体系的なリスクにつながります。
これらのギャップに対処するために、コンテキストの完全性(CI)理論に従って、安全性とプライバシーの問題を文脈化されたコンプライアンスの問題に策定します。
CIフレームワークの下で、モデルには、GDPR、EU AI法、およびHIPAAの3つの重要な規制基準に合わせます。
具体的には、安全性とプライバシーの規範へのコンプライアンスを強化しながら、文脈的推論能力を奨励するために、ルールベースの報酬を備えたRehnection Learning(RL)を採用しています。
広範な実験を通じて、この方法が法的コンプライアンス(安全性/プライバシーベンチマークの精度が +17.64%改善される)を大幅に向上させるだけでなく、一般的な推論能力をさらに向上させることを実証します。
Openthinker-7Bの場合、その基本モデルQWEN2.5-7B-Instructを多様な被験者で大幅に上回る強力な推論モデルである場合、この方法は、それぞれMMLUおよびLegalBenchベンチマークの +2.05%および +8.98%の精度改善で、一般的な推論能力を高めます。

要約(オリジナル)

While Large Language Models (LLMs) exhibit remarkable capabilities, they also introduce significant safety and privacy risks. Current mitigation strategies often fail to preserve contextual reasoning capabilities in risky scenarios. Instead, they rely heavily on sensitive pattern matching to protect LLMs, which limits the scope. Furthermore, they overlook established safety and privacy standards, leading to systemic risks for legal compliance. To address these gaps, we formulate safety and privacy issues into contextualized compliance problems following the Contextual Integrity (CI) theory. Under the CI framework, we align our model with three critical regulatory standards: GDPR, EU AI Act, and HIPAA. Specifically, we employ reinforcement learning (RL) with a rule-based reward to incentivize contextual reasoning capabilities while enhancing compliance with safety and privacy norms. Through extensive experiments, we demonstrate that our method not only significantly enhances legal compliance (achieving a +17.64% accuracy improvement in safety/privacy benchmarks) but also further improves general reasoning capability. For OpenThinker-7B, a strong reasoning model that significantly outperforms its base model Qwen2.5-7B-Instruct across diverse subjects, our method enhances its general reasoning capabilities, with +2.05% and +8.98% accuracy improvement on the MMLU and LegalBench benchmark, respectively.

arxiv情報

著者 Wenbin Hu,Haoran Li,Huihao Jing,Qi Hu,Ziqian Zeng,Sirui Han,Heli Xu,Tianshu Chu,Peizhao Hu,Yangqiu Song
発行日 2025-05-20 16:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning はコメントを受け付けていません

MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol

要約

モデルコンテキストプロトコル(MCP)は、ユーザーと開発者に使いやすいエコシステムを導入するため、露出していない安全リスクももたらします。
クライアントとサーバーを分離する分散アーキテクチャは、体系的な安全分析に独自の課題をもたらします。
このペーパーでは、MCPの安全性を高めるための新しいフレームワークを提案しています。
Maestroフレームワークに導かれ、まずMCPの欠落安全メカニズムを分析し、この分析に基づいて、これらのギャップに対処するMCPの洗練されたバージョンであるモデルコンテキスト整合性プロトコル(MCIP)を提案します。
この分類法に基づいて、MCP相互作用内の安全リスクを特定するためのLLMSの能力の評価と改善をサポートするベンチマークとトレーニングデータを開発します。
提案されたベンチマークとトレーニングデータを活用して、最先端のLLMに関する広範な実験を実施します。
結果は、MCP相互作用のLLMSの脆弱性を強調し、私たちのアプローチが安全性能を大幅に改善することを示しています。

要約(オリジナル)

As Model Context Protocol (MCP) introduces an easy-to-use ecosystem for users and developers, it also brings underexplored safety risks. Its decentralized architecture, which separates clients and servers, poses unique challenges for systematic safety analysis. This paper proposes a novel framework to enhance MCP safety. Guided by the MAESTRO framework, we first analyze the missing safety mechanisms in MCP, and based on this analysis, we propose the Model Contextual Integrity Protocol (MCIP), a refined version of MCP that addresses these gaps.Next, we develop a fine-grained taxonomy that captures a diverse range of unsafe behaviors observed in MCP scenarios. Building on this taxonomy, we develop benchmark and training data that support the evaluation and improvement of LLMs’ capabilities in identifying safety risks within MCP interactions. Leveraging the proposed benchmark and training data, we conduct extensive experiments on state-of-the-art LLMs. The results highlight LLMs’ vulnerabilities in MCP interactions and demonstrate that our approach substantially improves their safety performance.

arxiv情報

著者 Huihao Jing,Haoran Li,Wenbin Hu,Qi Hu,Heli Xu,Tianshu Chu,Peizhao Hu,Yangqiu Song
発行日 2025-05-20 16:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol はコメントを受け付けていません

Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals

要約

コードの感度とは、問題の説明の詳細の変更を認識して応答するコードLLMの能力を指します。
現在のコードベンチマークと命令データは難易度と多様性に焦点を当てていますが、感度は見落とされています。
最初に、反事実的な摂動を使用して構築されたCTFコードベンチマークを導入し、出力の変更を最大化しながら入力の変更を最小限に抑えます。
この評価は、多くのLLMが元の問題と比較して10 \%を超えるパフォーマンス低下を持っていることを示しています。
感度を完全に活用するために、微調整微調整フレームワークであるCTF-Instructは、既存のデータを拡張し、選択メカニズムを使用して、難易度、多様性、感度の3つの側面を満たします。
CTF-Instructデータで微調整されたLLMSは、CTFコードで2 \%の改善とLiveCodebenchで10 \%パフォーマンスの向上を達成し、LLMSの感度を向上させてパフォーマンスを向上させる実現可能性を検証することを実験しています。

要約(オリジナル)

Code Sensitivity refers to the ability of Code LLMs to recognize and respond to details changes in problem descriptions. While current code benchmarks and instruction data focus on difficulty and diversity, sensitivity is overlooked. We first introduce the CTF-Code benchmark, constructed using counterfactual perturbations, minimizing input changes while maximizing output changes. The evaluation shows that many LLMs have a more than 10\% performance drop compared to the original problems. To fully utilize sensitivity, CTF-Instruct, an incremental instruction fine-tuning framework, extends on existing data and uses a selection mechanism to meet the three dimensions of difficulty, diversity, and sensitivity. Experiments show that LLMs fine-tuned with CTF-Instruct data achieve over a 2\% improvement on CTF-Code, and more than a 10\% performance boost on LiveCodeBench, validating the feasibility of enhancing LLMs’ sensitivity to improve performance.

arxiv情報

著者 Xianzhen Luo,Qingfu Zhu,Zhiming Zhang,Mingzheng Xu,Tianhao Cheng,Yixuan Wang,Zheng Chu,Shijie Xuyang,Zhiyuan Ma,YuanTao Fan,Wanxiang Che
発行日 2025-05-20 16:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals はコメントを受け付けていません