FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

要約

反事実的な例は、モデルを改善するための貴重なデータとして、およびモデルの行動を理解するための説明可能な人工知能(XAI)として、自然言語処理(NLP)で広く使用されています。
多くのタスクでの印象的なパフォーマンスにもかかわらず、大規模な言語モデル(LLM)にとっても、反事実的な例の自動生成は依然として困難な作業です。
この論文では、最初にZerocfを紹介します。これは、ゼロショット設定で反事実的な例を生成するために、特徴属性メソッドから派生した重要な単語を活用するための忠実なアプローチです。
第二に、新しいフレームワークであるFITCFを提示します。これは、ラベルフリップ検証によって前述の反事実をさらに検証し、2つの最先端のベースラインを上回る少数のショットプロンプトのデモとしてそれらを挿入します。
アブレーション研究を通じて、フリップレート、困惑、および類似性測定で評価されるように、反事実の品質を改善する上で、FITCFの各コアコンポーネントの重要性を特定します。
さらに、FITCFのバックボーン属性法としての石灰と統合勾配の有効性を示し、デモの数がパフォーマンスに最大の影響を与えることを発見します。
最後に、機能の帰属スコアの忠実さと生成された反事実の品質との間に強い相関関係を明らかにします。

要約(オリジナル)

Counterfactual examples are widely used in natural language processing (NLP) as valuable data to improve models, and in explainable artificial intelligence (XAI) to understand model behavior. The automated generation of counterfactual examples remains a challenging task even for large language models (LLMs), despite their impressive performance on many tasks. In this paper, we first introduce ZeroCF, a faithful approach for leveraging important words derived from feature attribution methods to generate counterfactual examples in a zero-shot setting. Second, we present a new framework, FitCF, which further verifies aforementioned counterfactuals by label flip verification and then inserts them as demonstrations for few-shot prompting, outperforming two state-of-the-art baselines. Through ablation studies, we identify the importance of each of FitCF’s core components in improving the quality of counterfactuals, as assessed through flip rate, perplexity, and similarity measures. Furthermore, we show the effectiveness of LIME and Integrated Gradients as backbone attribution methods for FitCF and find that the number of demonstrations has the largest effect on performance. Finally, we reveal a strong correlation between the faithfulness of feature attribution scores and the quality of generated counterfactuals.

arxiv情報

著者 Qianli Wang,Nils Feldhus,Simon Ostermann,Luis Felipe Villa-Arenas,Sebastian Möller,Vera Schmitt
発行日 2025-05-15 14:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation はコメントを受け付けていません

Conversational Query Reformulation with the Guidance of Retrieved Documents

要約

会話検索では、会話の質問に応答するために、与えられた質問の関連するパッセージを取得しようとします。
会話クエリ再編成(CQR)は、オリジナルのクエリを除外された形式に改良して、省略やコアフェレンスなどの元のクエリの問題を解決することにより、会話検索を改善します。
以前のCQRメソッドは、レトリバーの意味のある検索結果を常に生成するとは限らない人間の書面によるクエリの模倣に焦点を当てています。
この論文では、最初に取得されたドキュメントから重要な情報を活用することにより、CQRのクエリを改良するフレームワークであるGuidecQRを紹介します。
具体的には、GUIDECQRはキーワードを抽出し、取得したドキュメントから予想される回答を生成し、フィルタリング後にクエリと統合して、検索プロセスを強化する有用な情報を追加します。
実験結果は、提案された方法が複数のデータセットで最先端のパフォーマンスを達成し、以前のCQRメソッドを上回ることを示しています。
さらに、GUIDECQRは、人間によって書かれたクエリであっても、さまざまなタイプのクエリを使用して会話検索で追加のパフォーマンスを獲得できることを示しています。

要約(オリジナル)

Conversational search seeks to retrieve relevant passages for the given questions in conversational question answering. Conversational Query Reformulation (CQR) improves conversational search by refining the original queries into de-contextualized forms to resolve the issues in the original queries, such as omissions and coreferences. Previous CQR methods focus on imitating human written queries which may not always yield meaningful search results for the retriever. In this paper, we introduce GuideCQR, a framework that refines queries for CQR by leveraging key information from the initially retrieved documents. Specifically, GuideCQR extracts keywords and generates expected answers from the retrieved documents, then unifies them with the queries after filtering to add useful information that enhances the search process. Experimental results demonstrate that our proposed method achieves state-of-the-art performance across multiple datasets, outperforming previous CQR methods. Additionally, we show that GuideCQR can get additional performance gains in conversational search using various types of queries, even for queries written by humans.

arxiv情報

著者 Jeonghyun Park,Hwanhee Lee
発行日 2025-05-15 14:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Conversational Query Reformulation with the Guidance of Retrieved Documents はコメントを受け付けていません

KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus

要約

教育アシスタントなどのビデオベースのダイアログシステムは、説得力のあるアプリケーション価値を持ち、それによって関心が高まっています。
ただし、現在のビデオベースのダイアログシステムは、単一のダイアログタイプに依存することによって制限されています。これは、質問を回答、感情的な対話などを含むさまざまなシナリオにわたる実際のアプリケーションでの汎用性を妨げます。このホワイトペーパーでは、この課題をビデオ駆動型の多言語の混合タイプの対話を生成する方法として特定します。
この課題を緩和するために、新しいタスクを提案し、クワイチャットと呼ばれる人間から人間へのビデオ駆動型の多言語の混合タイプのダイアログコーパスを作成します。これは、合計93,209のビデオと246,080のダイアログを含む、4つのダイアログタイプ、30ドメイン、4つの言語、および13のトピックを含みます。
さらに、Kwaichatにベースラインモデルを確立します。
KWAICHATでの7個の異なるLLMの広範な分析により、GPT-4Oは最高のパフォーマンスを達成しますが、コンテキスト内学習と微調整の助けを借りてもこの状況ではうまく機能できないことが明らかになりました。

要約(オリジナル)

Video-based dialogue systems, such as education assistants, have compelling application value, thereby garnering growing interest. However, the current video-based dialogue systems are limited by their reliance on a single dialogue type, which hinders their versatility in practical applications across a range of scenarios, including question-answering, emotional dialog, etc. In this paper, we identify this challenge as how to generate video-driven multilingual mixed-type dialogues. To mitigate this challenge, we propose a novel task and create a human-to-human video-driven multilingual mixed-type dialogue corpus, termed KwaiChat, containing a total of 93,209 videos and 246,080 dialogues, across 4 dialogue types, 30 domains, 4 languages, and 13 topics. Additionally, we establish baseline models on KwaiChat. An extensive analysis of 7 distinct LLMs on KwaiChat reveals that GPT-4o achieves the best performance but still cannot perform well in this situation even with the help of in-context learning and fine-tuning, which indicates that the task is not trivial and needs further research.

arxiv情報

著者 Xiaoming Shi,Zeming Liu,Yiming Lei,Chenkai Zhang,Haitao Leng,Chuan Wang,Qingjie Liu,Wanxiang Che,Shaoguo Liu,Size Li,Yunhong Wang
発行日 2025-05-15 14:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus はコメントを受け付けていません

LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations

要約

セマンティックテキスト表現は、自然言語処理の分野における基本的なタスクです。
既存のテキストの埋め込み(SimcseやLLM2VECなど)は優れたパフォーマンスを実証していますが、各次元の値を追跡して解釈することは困難です。
古典的なまばらな解釈可能な埋め込みとして、パフォーマンスが低いことに苦しんでいます。
最近、ベナラ等。
(2024)一連の質問への回答に基づいて「0/1」埋め込みを形成する大きな言語モデルを使用して、解釈可能なテキスト埋め込みを提案します。
これらの解釈可能なテキストの埋め込みは、通常、高次元(10,000を超える)です。
この作業では、相対表現(LDIR)を備えた低次元(500未満)の密で解釈可能なテキスト埋め込みを提案します。
その寸法の数値は、最も遠いポイントサンプリングを介した異なるアンカーテキストに対するセマンティックな関連性を示しており、セマンティック表現と一定レベルのトレーサビリティと解釈可能性の両方を提供します。
複数のセマンティックテキストの類似性、検索、およびクラスタリングタスクでLDIRを検証します。
広範な実験結果は、LDIRがブラックボックスベースラインモデルの近くで実行し、より少ない次元の解釈可能な埋め込みベースラインよりも優れていることを示しています。
コードはhttps://github.com/szu-tera/ldirで入手できます。

要約(オリジナル)

Semantic text representation is a fundamental task in the field of natural language processing. Existing text embedding (e.g., SimCSE and LLM2Vec) have demonstrated excellent performance, but the values of each dimension are difficult to trace and interpret. Bag-of-words, as classic sparse interpretable embeddings, suffers from poor performance. Recently, Benara et al. (2024) propose interpretable text embeddings using large language models, which forms ‘0/1’ embeddings based on responses to a series of questions. These interpretable text embeddings are typically high-dimensional (larger than 10,000). In this work, we propose Low-dimensional (lower than 500) Dense and Interpretable text embeddings with Relative representations (LDIR). The numerical values of its dimensions indicate semantic relatedness to different anchor texts through farthest point sampling, offering both semantic representation as well as a certain level of traceability and interpretability. We validate LDIR on multiple semantic textual similarity, retrieval, and clustering tasks. Extensive experimental results show that LDIR performs close to the black-box baseline models and outperforms the interpretable embeddings baselines with much fewer dimensions. Code is available at https://github.com/szu-tera/LDIR.

arxiv情報

著者 Yile Wang,Zhanyu Shen,Hui Huang
発行日 2025-05-15 14:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LDIR: Low-Dimensional Dense and Interpretable Text Embeddings with Relative Representations はコメントを受け付けていません

Coherent Language Reconstruction from Brain Recordings with Flexible Multi-Modal Input Stimuli

要約

脳の活動からの思考を解読することは、人間の認知に関する貴重な洞察を提供し、脳コンピューターの相互作用における有望なアプリケーションを可能にします。
以前の研究では、fMRIデータからの言語再構成を調査していますが、通常、画像やオーディオなどの単一モダリティ入力に限定されています。
対照的に、人間の思考は本質的にマルチモーダルです。
このギャップを埋めるために、私たちは、多様な入力モダリティ、視聴者、聴覚、およびテキストによって誘発される脳記録からコヒーレント言語を再構築するための統一された柔軟なフレームワークを提案します。
私たちのアプローチは、視覚言語モデル(VLM)を活用して、モダリティ固有の専門家を使用して、モダリティ全体で情報を共同で解釈します。
実験は、私たちの方法が最先端のシステムに匹敵するパフォーマンスを達成しながら、適応性と拡張可能なままであることを示しています。
この作業は、より生態学的に有効で一般化可能なマインドデコードに向けて進みます。

要約(オリジナル)

Decoding thoughts from brain activity offers valuable insights into human cognition and enables promising applications in brain-computer interaction. While prior studies have explored language reconstruction from fMRI data, they are typically limited to single-modality inputs such as images or audio. In contrast, human thought is inherently multimodal. To bridge this gap, we propose a unified and flexible framework for reconstructing coherent language from brain recordings elicited by diverse input modalities-visual, auditory, and textual. Our approach leverages visual-language models (VLMs), using modality-specific experts to jointly interpret information across modalities. Experiments demonstrate that our method achieves performance comparable to state-of-the-art systems while remaining adaptable and extensible. This work advances toward more ecologically valid and generalizable mind decoding.

arxiv情報

著者 Chunyu Ye,Shaonan Wang
発行日 2025-05-15 14:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Coherent Language Reconstruction from Brain Recordings with Flexible Multi-Modal Input Stimuli はコメントを受け付けていません

Multi-domain Multilingual Sentiment Analysis in Industry: Predicting Aspect-based Opinion Quadruples

要約

このペーパーでは、実際の使用のために大規模な言語モデル(LLMS)を使用して、アスペクトベースのセンチメント分析システムの設計を調査します。
私たちは、四足動物の意見抽出に焦点を当てています – 異なるドメインや言語にわたるテキストデータからのアスペクトカテゴリ、センチメントの極性、ターゲット、および意見表現を特定します。
内部データセットを使用して、単一の微調整されたモデルが複数のドメイン固有の分類法を同時に効果的に処理できるかどうかを調査します。
複合マルチドメインモデルは、運用上の複雑さを減らしながら、特殊な単一ドメインモデルに匹敵するパフォーマンスを実現することを実証します。
また、構造化された予測タスク用のLLMベースのシステムを開発する際に、非抽出予測を処理し、さまざまな障害モードを評価するために学んだ教訓を共有します。

要約(オリジナル)

This paper explores the design of an aspect-based sentiment analysis system using large language models (LLMs) for real-world use. We focus on quadruple opinion extraction — identifying aspect categories, sentiment polarity, targets, and opinion expressions from text data across different domains and languages. Using internal datasets, we investigate whether a single fine-tuned model can effectively handle multiple domain-specific taxonomies simultaneously. We demonstrate that a combined multi-domain model achieves performance comparable to specialized single-domain models while reducing operational complexity. We also share lessons learned for handling non-extractive predictions and evaluating various failure modes when developing LLM-based systems for structured prediction tasks.

arxiv情報

著者 Benjamin White,Anastasia Shimorina
発行日 2025-05-15 15:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-domain Multilingual Sentiment Analysis in Industry: Predicting Aspect-based Opinion Quadruples はコメントを受け付けていません

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

要約

大規模な言語モデル(LLM)が広くアクセスできるようになると、現実世界の使用を成功させるには、特定のドメイン内の知識の詳細な理解が必要になります。
これは、関連性があり、正確で、現在の情報を取得できないと、英国の住民に大きな影響を与える可能性がある公衆衛生において特に重要です。
ただし、現在、英国政府の公衆衛生情報に関するLLMの知識についてはほとんど知られていません。
この問題に対処するために、このペーパーでは、LLMSの複数選択質問(MCQA)と公衆衛生の質問に対する無料のフォーム応答を評価するための8000を超える質問を含む新しいベンチマークであるPubHealthbenchを紹介します。
PubHealthBenchを作成するには、687の現在の英国政府のガイダンス文書から無料のテキストを抽出し、MCQAサンプルを生成するための自動パイプラインを実装します。
PubHealthBenchで24 LLMSの評価最新のプライベートLLMS(GPT-4.5、GPT-4.1、O1)は高度な知識を持ち、MCQAセットアップで90%以上の精度を達成し、大まかな検索エンジンの使用で人間を上回っています。
ただし、フリーフォームのセットアップでは、モデルのスコアリングが75%> 75%で、パフォーマンスが低くなります。
重要なことに、両方のセットアップでLLMが一般の人々を対象としたガイダンスに対してより高い精度を持っていることがわかります。
したがって、最先端のART(SOTA)LLMが公衆衛生情報のますます正確なソースであるという有望な兆候がありますが、公衆衛生のトピックに無料のフォーム応答を提供する際には、追加の保護手段またはツールが必要になる場合があります。

要約(オリジナル)

As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs’ Multiple Choice Question Answering (MCQA) and free form responses to public health queries. To create PubHealthBench we extract free text from 687 current UK government guidance documents and implement an automated pipeline for generating MCQA samples. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% accuracy in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Importantly we find in both setups LLMs have higher accuracy on guidance intended for the general public. Therefore, there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, but additional safeguards or tools may still be needed when providing free form responses on public health topics.

arxiv情報

著者 Joshua Harris,Fan Grayson,Felix Feldman,Timothy Laurence,Toby Nonnenmacher,Oliver Higgins,Leo Loman,Selina Patel,Thomas Finnie,Samuel Collins,Michael Borowitz
発行日 2025-05-15 15:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG | Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information はコメントを受け付けていません

Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation

要約

平易な言語の要約(PLS)は、臨床医と患者間の効果的なコミュニケーションを促進するために不可欠です。
大規模な言語モデル(LLM)は最近、PLSの生成を自動化する際に有望を示していますが、健康情報の理解をサポートする上での有効性は不明のままです。
一般に、以前の評価は、理解可能性を直接測定しない自動スコア、または限られた一般化可能性を備えた便利なサンプルからの主観的なリッカートスケールの評価に依存しています。
これらのギャップに対処するために、150人の参加者を持つAmazon Mechanical Turkを使用して、LLM生成PLSの大規模なクラウドソーシング評価を実施しました。
単純さ、情報性、一貫性、忠実さに焦点を当てた主観的なリッカートスケールの評価を通じてPLSの品質を評価しました。
客観的な複数選択の理解と読者の理解の尺度を思い出します。
さらに、10の自動評価メトリックと人間の判断の間のアラインメントを調べました。
我々の調査結果は、LLMが主観的評価で人間が書いたものと区別できないPLSを生成できるが、人間が執筆したPLSSは非常に優れた理解につながることを示しています。
さらに、自動化された評価メトリックは、人間の判断を反映することができず、PLSを評価するための適合性に疑問を投げかけます。
これは、読者の好みと理解の結果の両方に基づいて、LLM生成PLSを体系的に評価した最初の研究です。
私たちの調査結果は、表面レベルの品質を超えて移動する評価フレームワークと、素人の理解に明示的に最適化する生成方法の必要性を強調しています。

要約(オリジナル)

Plain language summaries (PLSs) are essential for facilitating effective communication between clinicians and patients by making complex medical information easier for laypeople to understand and act upon. Large language models (LLMs) have recently shown promise in automating PLS generation, but their effectiveness in supporting health information comprehension remains unclear. Prior evaluations have generally relied on automated scores that do not measure understandability directly, or subjective Likert-scale ratings from convenience samples with limited generalizability. To address these gaps, we conducted a large-scale crowdsourced evaluation of LLM-generated PLSs using Amazon Mechanical Turk with 150 participants. We assessed PLS quality through subjective Likert-scale ratings focusing on simplicity, informativeness, coherence, and faithfulness; and objective multiple-choice comprehension and recall measures of reader understanding. Additionally, we examined the alignment between 10 automated evaluation metrics and human judgments. Our findings indicate that while LLMs can generate PLSs that appear indistinguishable from human-written ones in subjective evaluations, human-written PLSs lead to significantly better comprehension. Furthermore, automated evaluation metrics fail to reflect human judgment, calling into question their suitability for evaluating PLSs. This is the first study to systematically evaluate LLM-generated PLSs based on both reader preferences and comprehension outcomes. Our findings highlight the need for evaluation frameworks that move beyond surface-level quality and for generation methods that explicitly optimize for layperson comprehension.

arxiv情報

著者 Yue Guo,Jae Ho Sohn,Gondy Leroy,Trevor Cohen
発行日 2025-05-15 15:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation はコメントを受け付けていません

Hierarchical Document Refinement for Long-context Retrieval-augmented Generation

要約

実際のRAGアプリケーションは、多くの場合、冗長な情報とノイズが推論コストの増加とパフォーマンスの低下をもたらす長いコンテキスト入力シナリオに遭遇します。
これらの課題に対処するために、長い文書の固有の構造特性を活用する効率的なプラグアンドプレイリファイナーであるLongRefinerを提案します。
Longrefinerは、単一の基礎モデルでのマルチタスク学習を通じて、デュアルレベルのクエリ分析、階層文書構造、および適応洗練を採用しています。
7つのQAデータセットでの実験は、LongRefinerがさまざまなシナリオで競争力のあるパフォーマンスを達成し、最良のベースラインと比較して10倍の計算コストと遅延を使用することを示しています。
さらなる分析では、LongRefinerがスケーラブルで効率的で効果的であることを検証し、現実世界のロングテキストRAGアプリケーションの実用的な洞察を提供します。
私たちのコードは、https://github.com/ignorejjj/longrefinerで入手できます。

要約(オリジナル)

Real-world RAG applications often encounter long-context input scenarios, where redundant information and noise results in higher inference costs and reduced performance. To address these challenges, we propose LongRefiner, an efficient plug-and-play refiner that leverages the inherent structural characteristics of long documents. LongRefiner employs dual-level query analysis, hierarchical document structuring, and adaptive refinement through multi-task learning on a single foundation model. Experiments on seven QA datasets demonstrate that LongRefiner achieves competitive performance in various scenarios while using 10x fewer computational costs and latency compared to the best baseline. Further analysis validates that LongRefiner is scalable, efficient, and effective, providing practical insights for real-world long-text RAG applications. Our code is available at https://github.com/ignorejjj/LongRefiner.

arxiv情報

著者 Jiajie Jin,Xiaoxi Li,Guanting Dong,Yuyao Zhang,Yutao Zhu,Yongkang Wu,Zhonghua Li,Qi Ye,Zhicheng Dou
発行日 2025-05-15 15:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Hierarchical Document Refinement for Long-context Retrieval-augmented Generation はコメントを受け付けていません

Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models

要約

拡散言語モデルの推論フレームワークであるラテラル思考の拡散チェーン(DCOLT)}を紹介します。
DCOLTは、逆拡散プロセスの各中間ステップを潜在的な「思考」アクションとして扱い、結果ベースの強化学習(RL)で最終回答の正しさの報酬を最大化するために推論軌跡全体を最適化します。
因果関係のある線形思考プロセスに従う従来のチェーン(COT)方法とは異なり、DCOLTは、中間の思考のステップの中で文法的正しさに関する厳格なルールなしで双方向の非線形推論を可能にします。
2つの代表的な拡散言語モデル(DLMS)にDCOLTを実装します。
まず、SEDDを代表的な連続時間離散拡散モデルとして選択します。このコンクリートスコアは、中間拡散ステップのシーケンス全体にわたってRL報酬を最大化する確率的ポリシーを導き出します。
さらに、離散時間マスクされた拡散言語モデルであるLladaを検討し、トークンを予測してマスクする順序が、ランキングベースのアンマスキングポリシーモジュール(UPM)から生じるRLアクションを最適化するために不可欠な役割を果たしていることを発見しました。
数学とコード生成の両方のタスクでの実験では、パブリックデータと16 H800 GPUのみを使用して、DCOLT強化DLMがSFTまたはRL、またはその両方でトレーニングされた他のDLMを上回ることが示されています。
特に、DColt-Reinforced Lladaは、GSM8K、Math、MBPP、およびHumanevalで、推論の精度を +9.8%、 +5.7%、 +11.4%、 +19.5%増加させます。

要約(オリジナル)

We introduce the \emph{Diffusion Chain of Lateral Thought (DCoLT)}, a reasoning framework for diffusion language models. DCoLT treats each intermediate step in the reverse diffusion process as a latent ‘thinking’ action and optimizes the entire reasoning trajectory to maximize the reward on the correctness of the final answer with outcome-based Reinforcement Learning (RL). Unlike traditional Chain-of-Thought (CoT) methods that follow a causal, linear thinking process, DCoLT allows bidirectional, non-linear reasoning with no strict rule on grammatical correctness amid its intermediate steps of thought. We implement DCoLT on two representative Diffusion Language Models (DLMs). First, we choose SEDD as a representative continuous-time discrete diffusion model, where its concrete score derives a probabilistic policy to maximize the RL reward over the entire sequence of intermediate diffusion steps. We further consider the discrete-time masked diffusion language model — LLaDA, and find that the order to predict and unmask tokens plays an essential role to optimize its RL action resulting from the ranking-based Unmasking Policy Module (UPM) defined by the Plackett-Luce model. Experiments on both math and code generation tasks show that using only public data and 16 H800 GPUs, DCoLT-reinforced DLMs outperform other DLMs trained by SFT or RL or even both. Notably, DCoLT-reinforced LLaDA boosts its reasoning accuracy by +9.8%, +5.7%, +11.4%, +19.5% on GSM8K, MATH, MBPP, and HumanEval.

arxiv情報

著者 Zemin Huang,Zhiyang Chen,Zijun Wang,Tiancheng Li,Guo-Jun Qi
発行日 2025-05-15 16:06:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models はコメントを受け付けていません