Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation

要約

大規模な言語モデル(LLMS)は、コード生成、数学的問題解決、アルゴリズム合成など、複雑な推論を必要とするタスクで顕著な成功を収めています。
しかし、中核的な疑問は残っています。これらのモデルは本当に理由がありますか、それとも浅い統計パターンを悪用するだけですか?
この論文では、チェーンオブコードの崩壊を紹介します。ここでは、意味的に忠実でありながら敵対的に構造化された迅速な摂動を導入することにより、LLMSの推論の堅牢性を体系的に調査します。
リートコードスタイルの問題から派生した700の摂動コード世代にまたがる私たちの評価は、ストーリーテリングの再構成、無関係な制約注入、並べ替えの例、数値摂動などの変換を適用します。
特定の変更はパフォーマンスをひどく低下させるが(精度が-42.1%まで低下する)、モデルの精度を最大35.3%驚くほど改善し、セマンティクスだけでなく表面レベルのプロンプトダイナミクスに対する感度も示唆していることが観察されます。
これらの発見は、現在の推論システムの脆弱性と予測不可能性を明らかにし、推論の調整と堅牢性を促すためのより多くの原則アプローチの必要性を強調しています。
摂動データセットと評価フレームワークをリリースして、信頼できる回復力のあるLLM推論のさらなる研究を促進します。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success in tasks requiring complex reasoning, such as code generation, mathematical problem solving, and algorithmic synthesis — especially when aided by reasoning tokens and Chain-of-Thought prompting. Yet, a core question remains: do these models truly reason, or do they merely exploit shallow statistical patterns? In this paper, we introduce Chain-of-Code Collapse, where we systematically investigate the robustness of reasoning LLMs by introducing a suite of semantically faithful yet adversarially structured prompt perturbations. Our evaluation — spanning 700 perturbed code generations derived from LeetCode-style problems — applies transformations such as storytelling reframing, irrelevant constraint injection, example reordering, and numeric perturbation. We observe that while certain modifications severely degrade performance (with accuracy drops up to -42.1%), others surprisingly improve model accuracy by up to 35.3%, suggesting sensitivity not only to semantics but also to surface-level prompt dynamics. These findings expose the fragility and unpredictability of current reasoning systems, underscoring the need for more principles approaches to reasoning alignments and prompting robustness. We release our perturbation datasets and evaluation framework to promote further research in trustworthy and resilient LLM reasoning.

arxiv情報

著者 Jaechul Roh,Varun Gandhi,Shivani Anilkumar,Arin Garg
発行日 2025-06-12 14:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | コメントする

Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs

要約

正確で校正された不確実性の推定値は、臨床的意思決定サポートなどのハイステークスドメインに大規模な言語モデル(LLM)を展開するために不可欠です。
2つのデータセット、11の医療専門分野、6つの質問タイプにわたって、10のオープンソースLLM(汎用、生物医学、および推論モデル)をカバーする、臨床的複数選択質問応答の不確実性推定方法の細粒度評価を提示します。
標準的な単一生成とサンプリングベースの方法を比較し、推論トレースの行動信号に基づいて単純なシングルパス推定器を探索するケーススタディを提示します。
これらの軽量の方法は、セマンティックエントロピーのパフォーマンスに近づいていますが、1世代のみが必要です。
私たちの結果は、専門分野と質問の種類にわたって実質的な変動を明らかにし、質問の性質とモデル固有の強さの両方に基づいてモデルを選択することの重要性を強調しています。

要約(オリジナル)

Accurate and well-calibrated uncertainty estimates are essential for deploying large language models (LLMs) in high-stakes domains such as clinical decision support. We present a fine-grained evaluation of uncertainty estimation methods for clinical multiple-choice question answering, covering ten open-source LLMs (general-purpose, biomedical, and reasoning models) across two datasets, eleven medical specialties, and six question types. We compare standard single-generation and sampling-based methods, and present a case study exploring simple, single-pass estimators based on behavioral signals in reasoning traces. These lightweight methods approach the performance of Semantic Entropy while requiring only one generation. Our results reveal substantial variation across specialties and question types, underscoring the importance of selecting models based on both the nature of the question and model-specific strengths.

arxiv情報

著者 Alberto Testoni,Iacer Calixto
発行日 2025-06-12 14:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Improving Named Entity Transcription with Contextual LLM-based Revision

要約

モデリングの最近の進歩と監視されたトレーニングデータの量の増加により、自動音声認識(ASR)システムは一般的な音声で顕著なパフォーマンスを達成しました。
ただし、最先端のASRの単語エラー率(WER)は、指定されたエンティティでは高いままです。
多くの場合、指定されたエンティティは最も重要なキーワードであるため、それらを誤って認識することは、特にASRシステムが複雑なシステムのフロントエンドとして機能する場合、すべてのダウンストリームアプリケーションに影響を与える可能性があります。
この論文では、LLMの推論能力と正しい名前付きエンティティのセットを含むローカルコンテキスト(講義ノート)を活用することにより、ASR予測の誤った名前のエンティティを修正するために、大規模な言語モデル(LLM)改訂メカニズムを紹介します。
最後に、開発とテストのためにMITコースから45時間のデータを含むNER-MIT-Opencoursewareデータセットを紹介します。
このデータセットでは、提案された手法は、指定されたエンティティで最大30 \%の相対的な削減を達成します。

要約(オリジナル)

With recent advances in modeling and the increasing amount of supervised training data, automatic speech recognition (ASR) systems have achieved remarkable performance on general speech. However, the word error rate (WER) of state-of-the-art ASR remains high for named entities. Since named entities are often the most critical keywords, misrecognizing them can affect all downstream applications, especially when the ASR system functions as the front end of a complex system. In this paper, we introduce a large language model (LLM) revision mechanism to revise incorrect named entities in ASR predictions by leveraging the LLM’s reasoning ability as well as local context (e.g., lecture notes) containing a set of correct named entities. Finally, we introduce the NER-MIT-OpenCourseWare dataset, containing 45 hours of data from MIT courses for development and testing. On this dataset, our proposed technique achieves up to 30\% relative WER reduction for named entities.

arxiv情報

著者 Viet Anh Trinh,Xinlu He,Jacob Whitehill
発行日 2025-06-12 14:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

FASCIST-O-METER: Classifier for Neo-fascist Discourse Online

要約

ネオファシズムは、アメリカ合衆国(米国)および他の西部社会でも過去10年間に顕著な成長を遂げてきた政治的および社会的イデオロギーです。
それは民主主義とそれが標的とする少数派に重大な危険をもたらし、それはエスカレーションを避けるためにそれに対する積極的な行動を必要とします。
この作品は、政治学の研究者によって監督された米国社会的文脈におけるデジタル談話のための、最初の類のないネオファシストコーディングスキームを提示します。
私たちの仕事は、この現象に対する自然言語加工(NLP)と政治学の間のギャップを橋渡ししています。
さらに、コーディングスキームをテストするために、著名なネオファシストグループ(Iron March and Stormfront.orgのフォーラム)からインターネット上で膨大な量のアクティビティを収集し、ガイドラインが収集されたポストのサブセットに適用されます。
クラウドソーシングを通じて、ネオファシストまたは非ネオファシストとラベル付けされた合計1000の投稿に注釈を付けます。
このラベルの付いたデータセットを使用すると、小さな言語モデル(SLM)と大規模な言語モデル(LLM)の両方を微調整およびテストし、ネオファシストの談話の最初の分類モデルを取得します。
この種のフォーラムでのネオファシストのレトリックの有病率は常に存在しており、将来の研究の良いターゲットになっていることがわかります。
社会的文脈は、NLPの研究を実施する際のネオファシストのスピーチの重要な考慮事項です。
最後に、この種の政治運動に対する仕事は、民主社会の幸福のために迫られ続けなければなりません。
免責事項:この調査では、個人や組織にラベルを付けることなく、他のヘイトスピーチ分析と同様に、テキストのネオファシストコンテンツの検出に焦点を当てています。

要約(オリジナル)

Neo-fascism is a political and societal ideology that has been having remarkable growth in the last decade in the United States of America (USA), as well as in other Western societies. It poses a grave danger to democracy and the minorities it targets, and it requires active actions against it to avoid escalation. This work presents the first-of-its-kind neo-fascist coding scheme for digital discourse in the USA societal context, overseen by political science researchers. Our work bridges the gap between Natural Language Processing (NLP) and political science against this phenomena. Furthermore, to test the coding scheme, we collect a tremendous amount of activity on the internet from notable neo-fascist groups (the forums of Iron March and Stormfront.org), and the guidelines are applied to a subset of the collected posts. Through crowdsourcing, we annotate a total of a thousand posts that are labeled as neo-fascist or non-neo-fascist. With this labeled data set, we fine-tune and test both Small Language Models (SLMs) and Large Language Models (LLMs), obtaining the very first classification models for neo-fascist discourse. We find that the prevalence of neo-fascist rhetoric in this kind of forum is ever-present, making them a good target for future research. The societal context is a key consideration for neo-fascist speech when conducting NLP research. Finally, the work against this kind of political movement must be pressed upon and continued for the well-being of a democratic society. Disclaimer: This study focuses on detecting neo-fascist content in text, similar to other hate speech analyses, without labeling individuals or organizations.

arxiv情報

著者 Rudy Alexandro Garrido Veliz,Martin Semmann,Chris Biemann,Seid Muhie Yimam
発行日 2025-06-12 15:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | コメントする

The Esethu Framework: Reimagining Sustainable Dataset Governance and Curation for Low-Resource Languages

要約

このペーパーでは、ESETHUフレームワークを紹介します。これは、地域社会に力を与え、言語リソースから公平な利益共有を確保するために特別に設計された持続可能なデータキュレーションフレームワークです。
このフレームワークは、新しいコミュニティ中心のデータライセンスであるEsethuライセンスによってサポートされています。
概念実証として、Esethuフレームワークとライセンスの下で開発されたオープンソースコーパスであるVuk’uzenzele isixhosa Speech Dataset(VIXSD)を紹介します。
人口統計学的および言語的メタデータを豊かにしたネイティブIsixhosaスピーカーからの読み取りスピーチを含むデータセットは、コミュニティ主導のライセンスとキュレーションの原則が、データクリエーターの関心を保護しながら、アフリカ言語の自動音声認識(ASR)の資源ギャップをどのように埋めることができるかを示しています。
データセットの開発をガイドするフレームワークについて説明し、ESETHUライセンスの規定の概要を説明し、VIXSDの方法論を提示し、ISIXHOSAの音声駆動型アプリケーションの構築と洗練におけるVIXSDの使いやすさを検証するASR実験を提示します。

要約(オリジナル)

This paper presents the Esethu Framework, a sustainable data curation framework specifically designed to empower local communities and ensure equitable benefit-sharing from their linguistic resource. This framework is supported by the Esethu license, a novel community-centric data license. As a proof of concept, we introduce the Vuk’uzenzele isiXhosa Speech Dataset (ViXSD), an open-source corpus developed under the Esethu Framework and License. The dataset, containing read speech from native isiXhosa speakers enriched with demographic and linguistic metadata, demonstrates how community-driven licensing and curation principles can bridge resource gaps in automatic speech recognition (ASR) for African languages while safeguarding the interests of data creators. We describe the framework guiding dataset development, outline the Esethu license provisions, present the methodology for ViXSD, and present ASR experiments validating ViXSD’s usability in building and refining voice-driven applications for isiXhosa.

arxiv情報

著者 Jenalea Rajab,Anuoluwapo Aremu,Everlyn Asiko Chimoto,Dale Dunbar,Graham Morrissey,Fadel Thior,Luandrie Potgieter,Jessico Ojo,Atnafu Lambebo Tonja,Maushami Chetty,Wilhelmina NdapewaOnyothi Nekoto,Pelonomi Moiloa,Jade Abbott,Vukosi Marivate,Benjamin Rosman
発行日 2025-06-12 15:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Mitigating Negative Interference in Multilingual Sequential Knowledge Editing through Null-Space Constraints

要約

大規模な言語モデル(LLMS)の多言語知識を効率的に更新する一方で、言語間で一貫した事実上の表現を維持しながら、長年にわたる未解決の課題のままです。
各言語の個別の編集システムを展開することは実行可能に思えるかもしれませんが、このアプローチには複数のモデルを管理する必要があるため、かなりのコストがかかります。
より効率的なソリューションには、すべての言語にわたる知識の更新を統一されたモデルに統合することが含まれます。
ただし、言語間で連続した編集を実行すると、破壊的なパラメーター干渉につながり、多言語の一般化と注入された知識の正確性が大幅に低下します。
この課題に対処するために、言語固有の知識の更新を正確に分離するように設計された新しいヌル空間制約のあるフレームワークであるLangeditを提案します。
Langeditのコアイノベーションは、各言語のパラメーターの更新を、以前の更新されたサブスペースの直交補体に投影する能力にあります。
このアプローチは、多言語の一般化能力を維持しながら、数学的に更新の独立性を保証します。
3つのモデルアーキテクチャ、6つの言語、4つのダウンストリームタスクで包括的な評価を実施し、Langeditがパラメーター干渉を効果的に緩和し、既存の最先端の編集方法を上回ることを実証します。
私たちの結果は、LLMSで効率的かつ正確な多言語の知識の更新を可能にする可能性を強調しています。
このコードは、https://github.com/vrcmf/langedit.gitで入手できます。

要約(オリジナル)

Efficiently updating multilingual knowledge in large language models (LLMs), while preserving consistent factual representations across languages, remains a long-standing and unresolved challenge. While deploying separate editing systems for each language might seem viable, this approach incurs substantial costs due to the need to manage multiple models. A more efficient solution involves integrating knowledge updates across all languages into a unified model. However, performing sequential edits across languages often leads to destructive parameter interference, significantly degrading multilingual generalization and the accuracy of injected knowledge. To address this challenge, we propose LangEdit, a novel null-space constrained framework designed to precisely isolate language-specific knowledge updates. The core innovation of LangEdit lies in its ability to project parameter updates for each language onto the orthogonal complement of previous updated subspaces. This approach mathematically guarantees update independence while preserving multilingual generalization capabilities. We conduct a comprehensive evaluation across three model architectures, six languages, and four downstream tasks, demonstrating that LangEdit effectively mitigates parameter interference and outperforms existing state-of-the-art editing methods. Our results highlight its potential for enabling efficient and accurate multilingual knowledge updates in LLMs. The code is available at https://github.com/VRCMF/LangEdit.git.

arxiv情報

著者 Wei Sun,Tingyu Qu,Mingxiao Li,Jesse Davis,Marie-Francine Moens
発行日 2025-06-12 15:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization

要約

チェーンオブシャーチ(COT)プロンプトの最近の進歩により、大規模な言語モデル(LLM)の推論能力が大幅に改善されました。
しかし、これらの方法はしばしば考え過ぎに悩まされ、不必要に長いまたは冗長な推論の痕跡につながります。
既存のアプローチは、LLMをトレーニングするための複数の推論チェーンをキュレーションすることでこの問題を軽減しようとしますが、それらの有効性は、生成されたデータの品質によって制約され、過剰フィッティングを起こしやすいことがよくあります。
課題に対処するために、推論軌道の精度と長さのバランスをとることを目的とした新しい方法である段階的試験(RecUT)を通じて推定を推論することを提案します。
具体的には、RecUTは段階的な探索メカニズムと長期にわたる切り替えサンプリング戦略を採用しており、LLMが多様な推論パスを徐々に生成できるようにします。
これらのパスは評価され、2つの特殊なモデル(Gemini LLMS)をトレーニングするための優先ペアを構築するために使用されます。
これら2つのモデルのパラメーターを補間することにより、最終的な統合モデルが取得されます。
複数の数学の推論データセットとバックボーンモデルにわたる実験結果は、Recutがさまざまなベースラインと比較して推論の精度を維持または改善しながら、推論の長さを約30〜50%削減することを示しています。
すべてのコードとデータは、https://github.com/neuir/recutからリリースされます。

要約(オリジナル)

Recent advances in Chain-of-Thought (CoT) prompting have substantially improved the reasoning capabilities of Large Language Models (LLMs). However, these methods often suffer from overthinking, leading to unnecessarily lengthy or redundant reasoning traces. Existing approaches attempt to mitigate this issue through curating multiple reasoning chains for training LLMs, but their effectiveness is often constrained by the quality of the generated data and prone to overfitting. To address the challenge, we propose Reasoning Compression ThroUgh Stepwise Trials (ReCUT), a novel method aimed at balancing the accuracy and length of reasoning trajectory. Specifically, ReCUT employs a stepwise exploration mechanism and a long-short switched sampling strategy, enabling LLMs to incrementally generate diverse reasoning paths. These paths are evaluated and used to construct preference pairs to train two specialized models (Gemini LLMs)-one optimized for reasoning accuracy, the other for shorter reasoning. A final integrated model is obtained by interpolating the parameters of these two models. Experimental results across multiple math reasoning datasets and backbone models demonstrate that ReCUT significantly reduces reasoning lengths by approximately 30-50%, while maintaining or improving reasoning accuracy compared to various baselines. All codes and data will be released via https://github.com/NEUIR/ReCUT.

arxiv情報

著者 Zhensheng Jin,Xinze Li,Yifan Ji,Chunyi Peng,Zhenghao Liu,Qi Shi,Yukun Yan,Shuo Wang,Furong Peng,Ge Yu
発行日 2025-06-12 15:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

CIIR@LiveRAG 2025: Optimizing Multi-Agent Retrieval Augmented Generation through Self-Training

要約

このペーパーでは、計画、検索、推論、調整などのサブタスクのための専門的なエージェントで構成されるマルチエージェント検索の高等発電(RAG)フレームワークであるMragを紹介します。
私たちのシステムは、報酬誘導軌道サンプリングを備えたセルフトレーニングパラダイムを使用して、エージェント間コラボレーションを最適化し、応答の生成を強化します。
Sigir 2025 Liveragコンペティション中にDatamorgana由来のデータセットで評価されたMragは、従来のRAGベースラインを上回ります。
競争の結果をさらに分析し、フレームワークの強みをケーススタディで紹介し、複雑で実世界のぼろきれタスクに対するその有効性を示しています。

要約(オリジナル)

This paper presents mRAG, a multi-agent retrieval-augmented generation (RAG) framework composed of specialized agents for subtasks such as planning, searching, reasoning, and coordination. Our system uses a self-training paradigm with reward-guided trajectory sampling to optimize inter-agent collaboration and enhance response generation. Evaluated on DataMorgana-derived datasets during the SIGIR 2025 LiveRAG competition, mRAG outperforms conventional RAG baselines. We further analyze competition outcomes and showcase the framework’s strengths with case studies, demonstrating its efficacy for complex, real-world RAG tasks.

arxiv情報

著者 Alireza Salemi,Mukta Maddipatla,Hamed Zamani
発行日 2025-06-12 16:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | コメントする

Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models

要約

自己教師の音声モデルの分析は、さまざまな種類の情報をどこでどのように表現するかを明らかにし始めています。
ただし、ほとんどすべての分析は英語に焦点を当てています。
ここでは、4つの異なる言語でトレーニングされたWAV2VEC2モデルが、言語が一致していないスピーチと非マッチングされていないスピーチの両方をエンコードする方法を調べます。
プロービング分類器と幾何学的分析を使用して、携帯電話、語彙トーン、およびスピーカー情報の表現方法を調べます。
すべての事前トレーニングおよびテスト言語について、携帯電話、トーン、スピーカーをエンコードするサブスペースは主に直交しており、プロービング精度のレイヤーワイズパターンは同様であり、後のレイヤーの一致した言語の電話とトーン(スピーカーではない)プローブに比較的小さな利点があることを示しています。
我々の調査結果は、WAV2VEC2によって学んだ表現の構造は、事前脱出中に使用される音声材料とほとんど依存していることを示唆しています。

要約(オリジナル)

Analyses of self-supervised speech models have begun to reveal where and how they represent different types of information. However, almost all analyses have focused on English. Here, we examine how wav2vec2 models trained on four different languages encode both language-matched and non-matched speech. We use probing classifiers and geometric analyses to examine how phones, lexical tones, and speaker information are represented. We show that for all pretraining and test languages, the subspaces encoding phones, tones, and speakers are largely orthogonal, and that layerwise patterns of probing accuracy are similar, with a relatively small advantage for matched-language phone and tone (but not speaker) probes in the later layers. Our findings suggest that the structure of representations learned by wav2vec2 is largely independent of the speech material used during pretraining.

arxiv情報

著者 Michele Gubian,Ioana Krehan,Oli Liu,James Kirby,Sharon Goldwater
発行日 2025-06-12 16:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | コメントする

Debiasing Watermarks for Large Language Models via Maximal Coupling

要約

言語モデルの透かしは、人間と機械で生成されたテキストを区別し、デジタル通信の完全性と信頼性を維持するために不可欠です。
トークンセットを「グリーン」と「レッド」リストに分割する新しいグリーン/レッドリストの透かし式アプローチを提示し、グリーントークンの生成確率を微妙に増やします。
トークン分布バイアスを修正するために、我々の方法では、均一なコインフリップを使用してバイアス補正を適用するかどうかを決定し、結果を擬似ランダム透かし信号として埋め込んでいます。
理論分析により、このアプローチの偏りのない性質と堅牢な検出機能が確認されます。
実験結果は、高い検出可能性を維持しながらテキストの品質を維持することにより、以前の手法よりも優れていることを示しており、テキストの品質を改善することを目的としたターゲットを絞った修正に対する回復力を示しています。
この研究は、言語モデルの有望な透かしソリューションを提供し、テキストの品質への影響を最小限に抑えるための効果的な検出のバランスをとります。

要約(オリジナル)

Watermarking language models is essential for distinguishing between human and machine-generated text and thus maintaining the integrity and trustworthiness of digital communication. We present a novel green/red list watermarking approach that partitions the token set into “green” and “red” lists, subtly increasing the generation probability for green tokens. To correct token distribution bias, our method employs maximal coupling, using a uniform coin flip to decide whether to apply bias correction, with the result embedded as a pseudorandom watermark signal. Theoretical analysis confirms this approach’s unbiased nature and robust detection capabilities. Experimental results show that it outperforms prior techniques by preserving text quality while maintaining high detectability, and it demonstrates resilience to targeted modifications aimed at improving text quality. This research provides a promising watermarking solution for language models, balancing effective detection with minimal impact on text quality.

arxiv情報

著者 Yangxinyu Xie,Xiang Li,Tanwi Mallick,Weijie J. Su,Ruixun Zhang
発行日 2025-06-12 16:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG, stat.ME, stat.ML | コメントする