ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality

要約

テキストでの有毒な音声検出に関する広範な研究にもかかわらず、音声のマンダリンオーディオの処理には重大なギャップが残っています。
マンダリンのユニークな韻律的キューと文化的に特定の表現をキャプチャする注釈付きのデータセットの欠如は、発言されていない毒性を除外しません。
これに対処するために、毒性の両方の形態(冒とく、いじめ、いじめ)と毒性の原因(たとえば、怒り、皮肉、解雇)を区別する詳細な注釈を特徴とするToxictone(この種の最大の公共データセット)を紹介します。
多様な現実世界のオーディオから供給され、13のトピックカテゴリに整理されたデータは、本物のコミュニケーションシナリオを反映しています。
また、最先端のスピーチと感情エンコーダーを使用して、音響、言語、および感情的な特徴を統合するマルチモーダル検出フレームワークを提案します。
広範な実験は、私たちのアプローチがテキストのみのモデルとベースラインモデルよりも優れていることを示しており、隠された毒性表現を明らかにする際の音声固有の手がかりの本質的な役割を強調しています。

要約(オリジナル)

Despite extensive research on toxic speech detection in text, a critical gap remains in handling spoken Mandarin audio. The lack of annotated datasets that capture the unique prosodic cues and culturally specific expressions in Mandarin leaves spoken toxicity underexplored. To address this, we introduce ToxicTone — the largest public dataset of its kind — featuring detailed annotations that distinguish both forms of toxicity (e.g., profanity, bullying) and sources of toxicity (e.g., anger, sarcasm, dismissiveness). Our data, sourced from diverse real-world audio and organized into 13 topical categories, mirrors authentic communication scenarios. We also propose a multimodal detection framework that integrates acoustic, linguistic, and emotional features using state-of-the-art speech and emotion encoders. Extensive experiments show our approach outperforms text-only and baseline models, underscoring the essential role of speech-specific cues in revealing hidden toxic expressions.

arxiv情報

著者 Yu-Xiang Luo,Yi-Cheng Lin,Ming-To Chuang,Jia-Hung Chen,I-Ning Tsai,Pei Xing Kiew,Yueh-Hsuan Huang,Chien-Feng Liu,Yu-Chen Chen,Bo-Han Feng,Wenze Ren,Hung-yi Lee
発行日 2025-05-21 17:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality はコメントを受け付けていません

Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention

要約

大規模な言語モデル(LLMS)は、計算の非効率性と冗長処理により、コンテキスト圧縮技術への関心を促進するため、長いシーケンス推論に大きな課題に遭遇します。
既存の方法は、多くの場合、トークンの重要性に依存して、硬いローカル圧縮を実行したり、コンテキストをエンコードしてソフトグローバル圧縮の潜在表現にエンコードしたりします。
ただし、テキストコンテンツの関連性の不均一な分布とユーザーの指示に対する要求の多様性は、これらのアプローチが潜在的に貴重な情報の損失に頻繁につながることを意味します。
これに対処するために、$ \ textbf {hy} $ brid $ \ textbf {co} $ ntext $ \ textbf {co} $ mpression(hyco $ _2 $)を提案します。
具体的には、さまざまなアダプターが異なるタスクで優れているという観察に基づいて、グローバルなセマンティクスをグローバルビューで改良するためにハイブリッドアダプターを採用しています。
次に、ローカルビューに基づいて各コンテキストトークンに保持確率を割り当てる分類レイヤーを組み込み、保持するか廃棄するかを決定します。
グローバル圧縮とローカル圧縮のバランスの取れた統合を促進するために、命令チューニング前に補助用の言い換えと完了前の事前化を紹介します。
これにより、指導に関連する情報を強調しながら、本質的なローカルの詳細を保持し、最終的にコンテキスト圧縮におけるローカルおよびグローバルな情報保持のバランスをとる相乗的統合が促進されます。
実験では、HYCO $ _2 $メソッドがトークンの使用を削減しながら、長いテキストの推論を大幅に強化することを示しています。
さまざまなLLMシリーズのパフォーマンスが、7つの知識集約型QAベンチマークで平均13.1 \%で改善されます。
さらに、HYCO $ _2 $は、非圧縮方法のパフォーマンスと一致し、トークン消費量を88.8 \%削減します。

要約(オリジナル)

Large Language Models (LLMs) encounter significant challenges in long-sequence inference due to computational inefficiency and redundant processing, driving interest in context compression techniques. Existing methods often rely on token importance to perform hard local compression or encode context into latent representations for soft global compression. However, the uneven distribution of textual content relevance and the diversity of demands for user instructions mean these approaches frequently lead to the loss of potentially valuable information. To address this, we propose $\textbf{Hy}$brid $\textbf{Co}$ntext $\textbf{Co}$mpression (HyCo$_2$) for LLMs, which integrates both global and local perspectives to guide context compression while retaining both the essential semantics and critical details for task completion. Specifically, we employ a hybrid adapter to refine global semantics with the global view, based on the observation that different adapters excel at different tasks. Then we incorporate a classification layer that assigns a retention probability to each context token based on the local view, determining whether it should be retained or discarded. To foster a balanced integration of global and local compression, we introduce auxiliary paraphrasing and completion pretraining before instruction tuning. This promotes a synergistic integration that emphasizes instruction-relevant information while preserving essential local details, ultimately balancing local and global information retention in context compression. Experiments show that our HyCo$_2$ method significantly enhances long-text reasoning while reducing token usage. It improves the performance of various LLM series by an average of 13.1\% across seven knowledge-intensive QA benchmarks. Moreover, HyCo$_2$ matches the performance of uncompressed methods while reducing token consumption by 88.8\%.

arxiv情報

著者 Huanxuan Liao,Wen Hu,Yao Xu,Shizhu He,Jun Zhao,Kang Liu
発行日 2025-05-21 17:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention はコメントを受け付けていません

ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning

要約

会話型検索システムには、曖昧さ、省略、コアレファレンスを含むことが多いコンテキスト依存のクエリの効果的な処理が必要です。
会話クエリ再編成(CQR)は、これらのクエリを既製のレトリバーに適した自己完結型フォームに変換することにより、この課題に対処します。
ただし、既存のCQRアプローチは、2つの重要な制約に悩まされています。人間の注釈または大規模な言語モデルからの費用のかかる外部監督への依存度と、書き換えモデルとダウンストリームレトリバーの間のアラインメントが不十分です。
Convsearch-R1は、検索信号を介して補強学習を直接最適化するための補強学習を活用することにより、外部書き換え監督への依存を完全に排除する最初の自己主導のフレームワークです。
私たちの新しい2段階のアプローチは、自己主導のポリシーのウォームアップを組み合わせて、検索ガイド付きの自己抵抗を通じてコールドスタートの問題に対処し、それに続いて、従来の回収メトリックのスパース性の問題に対処する特別に設計されたランク介入報酬形状メカニズムを備えた検索誘導補強学習を続けます。
TopiocqaおよびQRECCデータセットの広範な実験は、Convsearch-R1が以前の最先端の方法を大幅に上回り、外部の監督なしでより小さな3Bパラメーターモデルを使用しながら、困難なTopiocqaデータセットを10%以上改善することを示しています。

要約(オリジナル)

Conversational search systems require effective handling of context-dependent queries that often contain ambiguity, omission, and coreference. Conversational Query Reformulation (CQR) addresses this challenge by transforming these queries into self-contained forms suitable for off-the-shelf retrievers. However, existing CQR approaches suffer from two critical constraints: high dependency on costly external supervision from human annotations or large language models, and insufficient alignment between the rewriting model and downstream retrievers. We present ConvSearch-R1, the first self-driven framework that completely eliminates dependency on external rewrite supervision by leveraging reinforcement learning to optimize reformulation directly through retrieval signals. Our novel two-stage approach combines Self-Driven Policy Warm-Up to address the cold-start problem through retrieval-guided self-distillation, followed by Retrieval-Guided Reinforcement Learning with a specially designed rank-incentive reward shaping mechanism that addresses the sparsity issue in conventional retrieval metrics. Extensive experiments on TopiOCQA and QReCC datasets demonstrate that ConvSearch-R1 significantly outperforms previous state-of-the-art methods, achieving over 10% improvement on the challenging TopiOCQA dataset while using smaller 3B parameter models without any external supervision.

arxiv情報

著者 Changtai Zhu,Siyin Wang,Ruijun Feng,Kai Song,Xipeng Qiu
発行日 2025-05-21 17:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning はコメントを受け付けていません

dKV-Cache: The Cache for Diffusion Language Models

要約

拡散言語モデル(DLM)は、自己回帰言語モデルの有望な競合他社と見なされてきました。
ただし、拡散言語モデルは、ゆっくりとした推論によって長い間制約されてきました。
中心的な課題は、彼らの非自動網性アーキテクチャと双方向の注意が、デコードを加速するキー価値のキャッシュを排除することです。
DLMSの除去プロセスのために、KVキャッシュのようなメカニズム、KVキャッシュの遅延を提案することにより、このボトルネックに対処します。
私たちのアプローチは、異なるトークンが拡散プロセス全体で明確な表現ダイナミクスを持っているという観察によって動機付けられています。
したがって、キーおよびバリューの状態に対して、遅延して条件付けられたキャッシュ戦略を提案します。
キーと値を段階的にキャッシュするために2つの補完的なバリエーションを設計します:(1)DKV-CACHE-DECODEは、ほとんどロスレス加速度を提供し、長いシーケンスのパフォーマンスを改善し、既存のDLMが推論中に文脈情報を過小評価する可能性があることを示唆しています。
(2)DKV-Cache-Greedyは、寿命が短くなった攻撃的なキャッシュを持ち、パフォーマンスの劣化を犠牲にして二次時間の複雑さで高速化を達成します。
DKV-Cacheは、最終的には、推論で2〜10倍のスピードアップを達成し、ARSとDLMSの間のギャップを主に狭めます。
DKV-Cacheをいくつかのベンチマークで評価し、一般的な言語の理解、数学、およびコードジェネレーションベンチマーク全体で加速を提供します。
実験では、現在のDLMからのトレーニングなしの方法でさえ、キャッシュもDLMで使用できることを示しています。

要約(オリジナル)

Diffusion Language Models (DLMs) have been seen as a promising competitor for autoregressive language models. However, diffusion language models have long been constrained by slow inference. A core challenge is that their non-autoregressive architecture and bidirectional attention preclude the key-value cache that accelerates decoding. We address this bottleneck by proposing a KV-cache-like mechanism, delayed KV-Cache, for the denoising process of DLMs. Our approach is motivated by the observation that different tokens have distinct representation dynamics throughout the diffusion process. Accordingly, we propose a delayed and conditioned caching strategy for key and value states. We design two complementary variants to cache key and value step-by-step: (1) dKV-Cache-Decode, which provides almost lossless acceleration, and even improves performance on long sequences, suggesting that existing DLMs may under-utilise contextual information during inference. (2) dKV-Cache-Greedy, which has aggressive caching with reduced lifespan, achieving higher speed-ups with quadratic time complexity at the cost of some performance degradation. dKV-Cache, in final, achieves from 2-10x speedup in inference, largely narrowing the gap between ARs and DLMs. We evaluate our dKV-Cache on several benchmarks, delivering acceleration across general language understanding, mathematical, and code-generation benchmarks. Experiments demonstrate that cache can also be used in DLMs, even in a training-free manner from current DLMs.

arxiv情報

著者 Xinyin Ma,Runpeng Yu,Gongfan Fang,Xinchao Wang
発行日 2025-05-21 17:32:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | dKV-Cache: The Cache for Diffusion Language Models はコメントを受け付けていません

Towards Reliable and Interpretable Traffic Crash Pattern Prediction and Safety Interventions Using Customized Large Language Models

要約

クラッシュイベントの予測は、クラッシュ分布とその貢献要因を理解するために重要であり、それにより、積極的な交通安全ポリシーの介入の設計を可能にします。
ただし、既存の方法は、数値特性、テキストレポート、クラッシュ画像、環境条件、ドライバーの行動記録など、トラフィッククラッシュデータのさまざまなソース間の複雑な相互作用を解釈するのに苦労しています。
その結果、彼らはしばしば、これらの多様なデータソースに埋め込まれた豊富なセマンティック情報と複雑な相互関係をキャプチャできず、重要なクラッシュリスク要因を特定する能力を制限します。
この研究では、LLMSを適応させてクラッシュ予測を再構成し、テキストベースの推論として帰属を特徴とするTrackedafeを提案します。
58,903の実際のレポートを含むマルチモーダルクラッシュデータセットと、属するインフラストラクチャ、環境、ドライバー、および車両情報が収集され、Trackafeイベントデータセットにテキスト化されます。
このデータセットでLLMをカスタマイズして微調整することにより、TrafficSafe LLMは、ベースラインよりもF1スコアの42%の平均改善を達成します。
これらの予測を解釈し、貢献要因を明らかにするために、条件付きリスク分析を可能にする文レベルの機能属性フレームワークであるTrackedafe Attributionを導入します。
調査結果は、アルコール障害の運転が重度のクラッシュの主要な要因であり、攻撃的および減損関連の行動は、他のドライバーの行動と比較して深刻なクラッシュの貢献度のほぼ2倍の貢献をしていることを示しています。
さらに、TrafficsAfeの属性は、モデルトレーニング中に極めて重要な機能を強調し、反復パフォーマンスの改善のために戦略的クラッシュデータ収集を導きます。
提案されているTrackedafeは、交通安全研究の変革的な飛躍を提供し、高度なAIテクノロジーを責任ある、実用的で命を救う結果に変換するための青写真を提供します。

要約(オリジナル)

Predicting crash events is crucial for understanding crash distributions and their contributing factors, thereby enabling the design of proactive traffic safety policy interventions. However, existing methods struggle to interpret the complex interplay among various sources of traffic crash data, including numeric characteristics, textual reports, crash imagery, environmental conditions, and driver behavior records. As a result, they often fail to capture the rich semantic information and intricate interrelationships embedded in these diverse data sources, limiting their ability to identify critical crash risk factors. In this research, we propose TrafficSafe, a framework that adapts LLMs to reframe crash prediction and feature attribution as text-based reasoning. A multi-modal crash dataset including 58,903 real-world reports together with belonged infrastructure, environmental, driver, and vehicle information is collected and textualized into TrafficSafe Event Dataset. By customizing and fine-tuning LLMs on this dataset, the TrafficSafe LLM achieves a 42% average improvement in F1-score over baselines. To interpret these predictions and uncover contributing factors, we introduce TrafficSafe Attribution, a sentence-level feature attribution framework enabling conditional risk analysis. Findings show that alcohol-impaired driving is the leading factor in severe crashes, with aggressive and impairment-related behaviors having nearly twice the contribution for severe crashes compared to other driver behaviors. Furthermore, TrafficSafe Attribution highlights pivotal features during model training, guiding strategic crash data collection for iterative performance improvements. The proposed TrafficSafe offers a transformative leap in traffic safety research, providing a blueprint for translating advanced AI technologies into responsible, actionable, and life-saving outcomes.

arxiv情報

著者 Yang Zhao,Pu Wang,Yibo Zhao,Hongru Du,Hao Frank Yang
発行日 2025-05-21 17:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Reliable and Interpretable Traffic Crash Pattern Prediction and Safety Interventions Using Customized Large Language Models はコメントを受け付けていません

Reverse Engineering Human Preferences with Reinforcement Learning

要約

大規模な言語モデル(LLM)の機能は、人間の好みを予測するために訓練された他のLLMによって日常的に評価されます。
このフレームワークは、LLM-As-a-a-judgeとして知られていますが、非常にスケーラブルで比較的低コストです。
ただし、LLMの応答は裁判官の好みを覆すように調整できるため、悪意のある搾取に対しても脆弱です。
以前の研究は、候補者によって生成された回答を事後編集して、裁判官によって割り当てられたスコアを最大化できることを示しています。
この研究では、別のアプローチを採用し、Judge-LLMSが提供する信号を、下流のパフォーマンスを高めるように設計されたテキストプリアンブルを生成する敵対的なチューニングモデルへの報酬として使用します。
これらのモデルでパイプ化されたフローズンLLMSは、既存のフレームワークよりも高いLLM評価スコアを達成することがわかります。
重要なのは、モデルの応答に直接介入する他のフレームワークとは異なり、私たちの方法は実質的に検出できません。
また、候補-LLMと裁判官-LLMがトレーニング中に使用されないモデルに置き換えられたときに、調整された前文発電機の有効性が転送されることを実証します。
これらの調査結果は、より信頼性の高いLLM-A-A-Judge評価設定の設計に関する重要な疑問を提起します。
彼らはまた、補強学習を介して上流の前文を最適化するためにLLMSをパイプ化することにより、人間の好みを効果的にリバースエンジニアリングできることを実証しています。

要約(オリジナル)

The capabilities of Large Language Models (LLMs) are routinely evaluated by other LLMs trained to predict human preferences. This framework–known as LLM-as-a-judge–is highly scalable and relatively low cost. However, it is also vulnerable to malicious exploitation, as LLM responses can be tuned to overfit the preferences of the judge. Previous work shows that the answers generated by a candidate-LLM can be edited post hoc to maximise the score assigned to them by a judge-LLM. In this study, we adopt a different approach and use the signal provided by judge-LLMs as a reward to adversarially tune models that generate text preambles designed to boost downstream performance. We find that frozen LLMs pipelined with these models attain higher LLM-evaluation scores than existing frameworks. Crucially, unlike other frameworks which intervene directly on the model’s response, our method is virtually undetectable. We also demonstrate that the effectiveness of the tuned preamble generator transfers when the candidate-LLM and the judge-LLM are replaced with models that are not used during training. These findings raise important questions about the design of more reliable LLM-as-a-judge evaluation settings. They also demonstrate that human preferences can be reverse engineered effectively, by pipelining LLMs to optimise upstream preambles via reinforcement learning–an approach that could find future applications in diverse tasks and domains beyond adversarial attacks.

arxiv情報

著者 Lisa Alazraki,Tan Yi-Chern,Jon Ander Campos,Maximilian Mozes,Marek Rei,Max Bartolo
発行日 2025-05-21 17:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reverse Engineering Human Preferences with Reinforcement Learning はコメントを受け付けていません

Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

要約

大規模な言語モデル(LLM)が企業や政府などの機密性のあるドメインにますます展開されているため、コンテキスト内でユーザー定義のセキュリティポリシーを遵守することは、特に情報の非開示に関して重要です。
以前のLLM研究では、一般的な安全性と社会的に敏感なデータに焦点を当てていますが、攻撃に対するコンテキストセキュリティの保存のための大規模なベンチマークはまだ不足しています。
これに対処するために、新しい大規模なベンチマークデータセットであるCoprivaを紹介し、問題の回答における文脈的非秘密保持ポリシーのLLM順守を評価します。
現実的なコンテキストから派生したデータセットには、禁止された情報を求める直接的で挑戦的な間接攻撃として設計された明示的なポリシーとクエリが含まれています。
ベンチマークで10のLLMを評価し、重大な脆弱性を明らかにします。多くのモデルは、ユーザー定義のポリシーに違反し、機密情報をリークします。
この障害は、間接的な攻撃に対して特に深刻であり、機密アプリケーションの現在のLLM安全アライメントの重大なギャップを強調しています。
私たちの分析は、モデルがクエリに対する正解をしばしば識別できることが多いが、世代中にポリシーの制約を組み込むのに苦労していることを明らかにしています。
対照的に、それらは、明示的に促されたときに出力を修正する部分的な能力を示します。
私たちの調査結果は、コンテキストセキュリティを保証するためのより堅牢な方法の緊急の必要性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.

arxiv情報

著者 Hwan Chang,Yumin Kim,Yonghyun Jun,Hwanhee Lee
発行日 2025-05-21 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering はコメントを受け付けていません

The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation

要約

大規模な言語モデルでは、検索の高度化を通じてトレーニングデータを超えて外部の知識にアクセスするために、コンテキスト内の学習を活用できます。
有望である一方で、その内部の働きは不明のままです。
この作業では、プロンプトを情報コンポーネントの構成と見なすことにより、質問に答えるためのコンテキスト内検索のメカニズムに光を当てました。
特殊な注意ヘッドを特定するための帰属ベースの方法を提案し、指示を理解し、関連するコンテキスト情報を取得するコンテキスト内ヘッドと、エンティティのリレーショナル知識を保存するパラメトリックヘッドを明らかにします。
彼らの役割をよりよく理解するために、機能ベクトルを抽出し、注意の重みを変更して、回答生成プロセスにどのように影響するかを示します。
最後に、獲得した洞察を活用して、推論中に使用される知識源を追跡し、より安全で透明な言語モデルへの道を開きます。

要約(オリジナル)

Large language models are able to exploit in-context learning to access external knowledge beyond their training data through retrieval-augmentation. While promising, its inner workings remain unclear. In this work, we shed light on the mechanism of in-context retrieval augmentation for question answering by viewing a prompt as a composition of informational components. We propose an attribution-based method to identify specialized attention heads, revealing in-context heads that comprehend instructions and retrieve relevant contextual information, and parametric heads that store entities’ relational knowledge. To better understand their roles, we extract function vectors and modify their attention weights to show how they can influence the answer generation process. Finally, we leverage the gained insights to trace the sources of knowledge used during inference, paving the way towards more safe and transparent language models.

arxiv情報

著者 Patrick Kahardipraja,Reduan Achtibat,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2025-05-21 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation はコメントを受け付けていません

Learning to Reason via Mixture-of-Thought for Logical Reasoning

要約

人間は自然に複数の推論モダリティを利用して、論理的な問題、つまり自然言語、コード、象徴的な論理などのさまざまな表現形式を学び、解決します。
対照的に、ほとんどの既存のLLMベースのアプローチは、トレーニング中に単一の推論モダリティ、通常は自然言語で動作します。
一部の方法では、推論時間にモダリティの選択または増強を調査しましたが、トレーニングプロセスはモダリティブラインドのままであり、モダリティ間の相乗効果を制限します。
このギャップを埋めるために、LLMが3つの補完的なモダリティにわたって推論できるようにするフレームワーク(自然言語、コード、および新たに導入された象徴的なモダリティである真理テーブル)であるThe Frameworkを提案します。
MOTは、2フェーズの設計を採用しています。(1)自己進化MOTトレーニング。これは、モダリティ全体でフィルター処理された自己生成の理論的根拠から共同で学習します。
(2)MOT推論。これは、3つのモダリティの相乗効果を完全に活用して、より良い予測を生成します。
FolioやProofwriterを含む論理的推論ベンチマークに関する実験は、MOTフレームワークが一貫して大幅に優れていることを示しています。
さらなる分析により、MOTフレームワークはトレーニングと推論の両方の段階に利益をもたらすことが示されています。
より困難な論理的推論の問題に特に効果的であること。
そして、その異なるモダリティは補完的な強みに貢献し、真理テーブルの推論は自然言語の推論における重要なボトルネックを克服するのに役立ちます。

要約(オリジナル)

Human beings naturally utilize multiple reasoning modalities to learn and solve logical problems, i.e., different representational formats such as natural language, code, and symbolic logic. In contrast, most existing LLM-based approaches operate with a single reasoning modality during training, typically natural language. Although some methods explored modality selection or augmentation at inference time, the training process remains modality-blind, limiting synergy among modalities. To fill in this gap, we propose Mixture-of-Thought (MoT), a framework that enables LLMs to reason across three complementary modalities: natural language, code, and a newly introduced symbolic modality, truth-table, which systematically enumerates logical cases and partially mitigates key failure modes in natural language reasoning. MoT adopts a two-phase design: (1) self-evolving MoT training, which jointly learns from filtered, self-generated rationales across modalities; and (2) MoT inference, which fully leverages the synergy of three modalities to produce better predictions. Experiments on logical reasoning benchmarks including FOLIO and ProofWriter demonstrate that our MoT framework consistently and significantly outperforms strong LLM baselines with single-modality chain-of-thought approaches, achieving up to +11.7pp average accuracy gain. Further analyses show that our MoT framework benefits both training and inference stages; that it is particularly effective on harder logical reasoning problems; and that different modalities contribute complementary strengths, with truth-table reasoning helping to overcome key bottlenecks in natural language inference.

arxiv情報

著者 Tong Zheng,Lichang Chen,Simeng Han,R. Thomas McCoy,Heng Huang
発行日 2025-05-21 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Learning to Reason via Mixture-of-Thought for Logical Reasoning はコメントを受け付けていません

Predictive Learning in Energy-based Models with Attractor Structures

要約

予測モデルは、脳機能のメカニズムを理解する上で非常に高度です。
機械学習における最近の進歩は、学習における最適な表現の予測の力をさらに強調しています。
しかし、神経系が予測を達成する方法を説明する生物学的にもっともらしいモデルを作成することにはギャップが残っています。
この論文では、エネルギーベースのモデル(EBM)を採用して、神経系内の作用後の観察を予測する微妙なプロセスをキャプチャし、予測、学習、推論を含むフレームワークを紹介します。
階層構造を使用してEBMを実装し、生物学的にもっともらしいモデルを構築し、メモリ用に連続アトラクタニューラルネットワークを統合します。
実験的評価では、私たちのモデルは、多様なシナリオ全体で有効性を示しています。
アクションの範囲には、眼の動き、環境での動き、頭の回転、および環境が変化している間に静的な観察が含まれます。
私たちのモデルは、訓練された環境の正確な予測を行うだけでなく、目に見えない環境の合理的な予測を提供し、複数のタスクでの機械学習方法のパフォーマンスに一致させます。
この研究が、神経系がどのように予測を実行するかについての深い理解に貢献することを願っています。

要約(オリジナル)

Predictive models are highly advanced in understanding the mechanisms of brain function. Recent advances in machine learning further underscore the power of prediction for optimal representation in learning. However, there remains a gap in creating a biologically plausible model that explains how the neural system achieves prediction. In this paper, we introduce a framework that employs an energy-based model (EBM) to capture the nuanced processes of predicting observation after action within the neural system, encompassing prediction, learning, and inference. We implement the EBM with a hierarchical structure and integrate a continuous attractor neural network for memory, constructing a biologically plausible model. In experimental evaluations, our model demonstrates efficacy across diverse scenarios. The range of actions includes eye movement, motion in environments, head turning, and static observation while the environment changes. Our model not only makes accurate predictions for environments it was trained on, but also provides reasonable predictions for unseen environments, matching the performances of machine learning methods in multiple tasks. We hope that this study contributes to a deep understanding of how the neural system performs prediction.

arxiv情報

著者 Xingsi Dong,Xiangyuan Peng,Si Wu
発行日 2025-05-21 15:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Predictive Learning in Energy-based Models with Attractor Structures はコメントを受け付けていません