LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

要約

音声からスピーチのダイアログシステムの最近の進歩は、マルチモーダルの相互作用のためにLLMを活用していますが、それらは微調整要件、高い計算オーバーヘッド、およびテキストスピーチの不整列によって妨げられたままです。
既存の音声対応LLMは、LLMを変更することにより会話の品質を低下させることが多く、それにより言語能力が損なわれます。
対照的に、ベースLLMの機能を完全に保存しながら、低レイテンシで高品質の音声を生成する軽量の30mパラメーター、LLMに依存しない、自己網膜ストリーミングTTSシステムであるLLMVoxを提案します。
私たちのアプローチは、同等のレイテンシとUTMOSスコアで動作しながら、音声対応LLMSと比較して大幅に低い単語エラー率を達成します。
LLMVoxは、マルチキュートークンストリーミングシステムを介してLLM処理からの音声合成を切り離すことにより、シームレスで無限の長さの対話をサポートします。
そのプラグアンドプレイデザインは、異なるバックボーンを持つさまざまなタスクの拡張も容易にします。
さらに、LLMVoxは、データセットの適応のみを備えた新しい言語に一般化し、アラビア語の音声タスクで文字エラー率が低くなります。
さらに、LLMVoxをビジョン言語モデルと統合して、追加のマルチモーダルトレーニングを必要とせずに、音声、テキスト、視覚機能を備えたOmni-Modelを作成しました。
当社のコードベースとプロジェクトページは、https://mbzuai-oryx.github.io/llmvoxで入手できます。

要約(オリジナル)

Recent advancements in speech-to-speech dialogue systems leverage LLMs for multimodal interactions, yet they remain hindered by fine-tuning requirements, high computational overhead, and text-speech misalignment. Existing speech-enabled LLMs often degrade conversational quality by modifying the LLM, thereby compromising its linguistic capabilities. In contrast, we propose LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS system that generates high-quality speech with low latency, while fully preserving the capabilities of the base LLM. Our approach achieves a significantly lower Word Error Rate compared to speech-enabled LLMs, while operating at comparable latency and UTMOS score. By decoupling speech synthesis from LLM processing via a multi-queue token streaming system, LLMVoX supports seamless, infinite-length dialogues. Its plug-and-play design also facilitates extension to various tasks with different backbones. Furthermore, LLMVoX generalizes to new languages with only dataset adaptation, attaining a low Character Error Rate on an Arabic speech task. Additionally, we have integrated LLMVoX with a Vision-Language Model to create an omni-model with speech, text, and vision capabilities, without requiring additional multimodal training. Our code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .

arxiv情報

著者 Sambal Shikhar,Mohammed Irfan Kurpath,Sahal Shaji Mullappilly,Jean Lahoud,Fahad Khan,Rao Muhammad Anwer,Salman Khan,Hisham Cholakkal
発行日 2025-03-06 18:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM はコメントを受け付けていません

Interpretable Transformation and Analysis of Timelines through Learning via Surprisability

要約

高次元のタイムラインデータの分析と外れ値と異常の識別は、センサーの測定値、生物学的および医療データ、歴史的記録、グローバル統計など、多様なドメイン全体で重要です。
ただし、従来の分析手法は、多くの場合、高次元、複雑な分布、スパース性などの課題と格闘しています。
これらの制限は、複雑な時間的データセットから意味のある洞察を抽出する能力を妨げ、トレンドの機能、外れ値、および異常を効果的に識別することを困難にします。
驚きに触発されました – 人間が予期せぬ逸脱に本能的に焦点を当てる方法を説明する認知科学の概念 – 私たちは、高次元のタイムラインデータを変換するための新しいアプローチである驚き(LVS)を介して学習を提案します。
LVSは、予想される動作からの逸脱を形式化することにより、時系列データの異常を定量化および優先順位を付けます。
LVSは、計算方法で注意の認知理論を橋渡しし、異常の検出を可能にし、重要なコンテキストを維持する方法でシフトし、複雑なデータセットを解釈するための新しいレンズを提供します。
3つの高次元のタイムラインユースケースでLVSの有用性を示します。センサーデータの時系列、数年にわたる死亡原因のグローバルデータセット、および米国大統領による2世紀以上の連合住所を含むテキストコーパスです。
我々の結果は、LVS変換により、タイムラインに沿った外れ値、異常、および最も可変性のある機能を効率的かつ解釈可能な識別が可能にすることを示しています。

要約(オリジナル)

The analysis of high-dimensional timeline data and the identification of outliers and anomalies is critical across diverse domains, including sensor readings, biological and medical data, historical records, and global statistics. However, conventional analysis techniques often struggle with challenges such as high dimensionality, complex distributions, and sparsity. These limitations hinder the ability to extract meaningful insights from complex temporal datasets, making it difficult to identify trending features, outliers, and anomalies effectively. Inspired by surprisability — a cognitive science concept describing how humans instinctively focus on unexpected deviations – we propose Learning via Surprisability (LvS), a novel approach for transforming high-dimensional timeline data. LvS quantifies and prioritizes anomalies in time-series data by formalizing deviations from expected behavior. LvS bridges cognitive theories of attention with computational methods, enabling the detection of anomalies and shifts in a way that preserves critical context, offering a new lens for interpreting complex datasets. We demonstrate the usefulness of LvS on three high-dimensional timeline use cases: a time series of sensor data, a global dataset of mortality causes over multiple years, and a textual corpus containing over two centuries of State of the Union Addresses by U.S. presidents. Our results show that the LvS transformation enables efficient and interpretable identification of outliers, anomalies, and the most variable features along the timeline.

arxiv情報

著者 Osnat Mokryn,Teddy Lazebnik,Hagit Ben Shoshan
発行日 2025-03-06 14:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, math.IT, stat.ME | Interpretable Transformation and Analysis of Timelines through Learning via Surprisability はコメントを受け付けていません

Multi-modal Summarization in Model-Based Engineering: Automotive Software Development Case Study

要約

多様なデータモダリティから情報を統合するマルチモーダルの要約は、さまざまなプロセス内の情報の理解を支援する有望なソリューションを提示します。
ただし、マルチモーダルの要約のアプリケーションと利点は、モデルベースのエンジニアリング(MBE)であまり注目されていません。そこでは、複雑なシステムの設計と開発の基礎となり、工学ライフサイクル全体の理解、検証、自動化を改善するための正式なモデルを活用しています。
モデルベースのエンジニアリングのUMLおよびEMF図には、大量のマルチモーダル情報と複雑なリレーショナルデータが含まれています。
したがって、我々の研究では、Modelベースのエンジニアリングのドメイン内でマルチモーダルの大手言語モデルの適用を調査して、UMLおよびEMF図に組み込まれた関係、機能、機能を理解および特定する能力を評価します。
私たちは、MBEプラクティスの生産性と精度を向上させるためのマルチモーダル要約の変革的な潜在的な利点と制限を実証することを目指しています。
提案されたアプローチは、自動車ソフトウェア開発のコンテキスト内で評価されますが、多くの有望な最先端モデルが考慮されました。

要約(オリジナル)

Multimodal summarization integrating information from diverse data modalities presents a promising solution to aid the understanding of information within various processes. However, the application and advantages of multimodal summarization have not received much attention in model-based engineering (MBE), where it has become a cornerstone in the design and development of complex systems, leveraging formal models to improve understanding, validation and automation throughout the engineering lifecycle. UML and EMF diagrams in model-based engineering contain a large amount of multimodal information and intricate relational data. Hence, our study explores the application of multimodal large language models within the domain of model-based engineering to evaluate their capacity for understanding and identifying relationships, features, and functionalities embedded in UML and EMF diagrams. We aim to demonstrate the transformative potential benefits and limitations of multimodal summarization in improving productivity and accuracy in MBE practices. The proposed approach is evaluated within the context of automotive software development, while many promising state-of-art models were taken into account.

arxiv情報

著者 Nenad Petrovic,Yurui Zhang,Moaad Maaroufi,Kuo-Yi Chao,Lukasz Mazur,Fengjunjie Pan,Vahid Zolfaghari,Alois Knoll
発行日 2025-03-06 14:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Multi-modal Summarization in Model-Based Engineering: Automotive Software Development Case Study はコメントを受け付けていません

STX-Search: Explanation Search for Continuous Dynamic Spatio-Temporal Models

要約

時空モデルの表現力の最近の改善により、トラフィック予測やソーシャルネットワークモデリングなど、多くの現実世界のアプリケーションでパフォーマンスの向上が生じています。
ただし、モデルからの予測を理解することは、特にヘルスケアや輸送などのリスクの高いアプリケーションで信頼性と信頼性を確保するために重要です。
連続時間動的グラフデータでトレーニングされたモデルの説明を生成できる既存の方法はほとんどありません。これらのうち、計算の複雑さと適切な説明目標の欠如が課題を引き起こします。
この論文では、$ \ textbf {s} $ patio-$ \ textbf {t} $ emporal e $ \ textbf {x} $ planation $ \ textbf {search} $(stx-search)を提案します。
新しい検索戦略と客観的機能を紹介し、非常に忠実で解釈可能な説明を見つけます。
既存の方法と比較すると、STX-Searchは、解釈可能性を維持するために説明サイズを最適化しながら、より高い忠実度の説明を生成します。

要約(オリジナル)

Recent improvements in the expressive power of spatio-temporal models have led to performance gains in many real-world applications, such as traffic forecasting and social network modelling. However, understanding the predictions from a model is crucial to ensure reliability and trustworthiness, particularly for high-risk applications, such as healthcare and transport. Few existing methods are able to generate explanations for models trained on continuous-time dynamic graph data and, of these, the computational complexity and lack of suitable explanation objectives pose challenges. In this paper, we propose $\textbf{S}$patio-$\textbf{T}$emporal E$\textbf{X}$planation $\textbf{Search}$ (STX-Search), a novel method for generating instance-level explanations that is applicable to static and dynamic temporal graph structures. We introduce a novel search strategy and objective function, to find explanations that are highly faithful and interpretable. When compared with existing methods, STX-Search produces explanations of higher fidelity whilst optimising explanation size to maintain interpretability.

arxiv情報

著者 Saif Anwar,Nathan Griffiths,Thomas Popham,Abhir Bhalerao
発行日 2025-03-06 14:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | STX-Search: Explanation Search for Continuous Dynamic Spatio-Temporal Models はコメントを受け付けていません

Dynamic Pricing for On-Demand DNN Inference in the Edge-AI Market

要約

エッジコンピューティングとAIの収束により、エッジAIが生じます。これにより、ネットワークエッジでのリアルタイムAIアプリケーションとサービスの展開が可能になります。
エッジ-AIの基本的な研究の問題の1つは、エッジ推論の加速です。これは、エンドデバイスからエッジサーバーへの分割された推論タスクの細かいオフロードを活用することにより、低遅延の高精度DNN推論サービスを実現することを目的としています。
ただし、既存の研究では、AIユーザーのパーソナライズされた推論のニーズ(例:推論の精度、待ち時間、タスクの複雑さなど)、エッジ推論サービスを提供するAIサービスプロバイダーの収益インセンティブ、および市場指向の文脈内のマルチストレークホルダーガバナンスの収益インセンティブを体系的に探求する実用的なエッジアイル市場の観点をまだ採用していません。
このギャップを埋めるために、DNNモデルパーティション、エッジ推論価格設定、およびリソース割り当ての多次元最適化問題に取り組むために、収益の最大化のためのオークションベースのエッジ推論価格設定メカニズム(AERIA)を提案します。
オンデマンドDNN推論アクセラレーションのためのマルチエッジデバイスエッジの相乗推論スキームを調査し、AIサービスプロバイダー、AIユーザー、およびエッジインフラストラクチャプロバイダーのオークションダイナミクスを分析します。
ランダム化コンセンサスの推定とコスト共有技術を介した戦略的メカニズムの設計により、Edge-AI市場は、収益の最大化、インセンティブの互換性、en望的なものなど、いくつかの望ましい特性を達成します。
4つの代表的なDNN推論ワークロードに基づいた広範なシミュレーション実験は、私たちのエリアメカニズムが収益の最大化におけるいくつかの最先端のアプローチを大幅に上回ることを示しており、エッジ-AI市場におけるオンデマンドDNN推論に対するエリアの有効性を示しています。

要約(オリジナル)

The convergence of edge computing and AI gives rise to Edge-AI, which enables the deployment of real-time AI applications and services at the network edge. One of the fundamental research issues in Edge-AI is edge inference acceleration, which aims to realize low-latency high-accuracy DNN inference services by leveraging the fine-grained offloading of partitioned inference tasks from end devices to edge servers. However, existing research has yet to adopt a practical Edge-AI market perspective, which would systematically explore the personalized inference needs of AI users (e.g., inference accuracy, latency, and task complexity), the revenue incentives for AI service providers that offer edge inference services, and multi-stakeholder governance within a market-oriented context. To bridge this gap, we propose an Auction-based Edge Inference Pricing Mechanism (AERIA) for revenue maximization to tackle the multi-dimensional optimization problem of DNN model partition, edge inference pricing, and resource allocation. We investigate the multi-exit device-edge synergistic inference scheme for on-demand DNN inference acceleration, and analyse the auction dynamics amongst the AI service providers, AI users and edge infrastructure provider. Owing to the strategic mechanism design via randomized consensus estimate and cost sharing techniques, the Edge-AI market attains several desirable properties, including competitiveness in revenue maximization, incentive compatibility, and envy-freeness, which are crucial to maintain the effectiveness, truthfulness, and fairness of our auction outcomes. The extensive simulation experiments based on four representative DNN inference workloads demonstrate that our AERIA mechanism significantly outperforms several state-of-the-art approaches in revenue maximization, demonstrating the efficacy of AERIA for on-demand DNN inference in the Edge-AI market.

arxiv情報

著者 Songyuan Li,Jia Hu,Geyong Min,Haojun Huang,Jiwei Huang
発行日 2025-03-06 15:08:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.DC, cs.SE | Dynamic Pricing for On-Demand DNN Inference in the Edge-AI Market はコメントを受け付けていません

SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning

要約

大規模な言語モデル(LLM)は推論に優れていますが、より微妙なトポロジカル推論を必要とする複雑なタスクに苦労している、考え方(COT)アプローチに制約されたままです。
ソーラー、推論のための大規模アーキテクチャのスケーラブルな最適化を導入します。これは、精度と効率を高めるためにさまざまな推論トポロジを動的に最適化するフレームワークです。
トポロジーアノテーション生成(TAG)システムは、トポロジーデータセットの作成とセグメンテーションを自動化し、トレーニング後と評価を改善します。
さらに、トレーニングと推論のスケーリングを調整する報酬主導のフレームワークであるトポロジースケーリングを提案し、LLMに適応的なタスクを意識した推論を装備しています。
ソーラーは、数学とGSM8Kの大幅な利益を達成します。トポロジーチューニングで +5%の精度、トポロジー報酬で +9%、ハイブリッドスケーリングで +10.02%。
また、複雑な問題に対して応答長を5%以上削減し、推論潜時を下げます。
報酬システムを促進するために、マルチタスクのトポロジ報酬モデル(M-TRM)をトレーニングします。これは、単一のパスで最良の推論トポロジと回答を自律的に選択し、複数のシングルタスクTRM(S-TRM)のトレーニングと推論の必要性を排除し、トレーニングコストと推論の両方の潜在性を削減します。
さらに、パフォーマンスの観点から、M-TRMはすべてのS-TRMを上回り、精度を +10%、ランク相関を +9%上回ります。
私たちの知る限り、Solarは、自動化された注釈プロセスと動的推論トポロジー競争メカニズムを導入しながら、スケーラブルで高精度のLLM推論のための新しいベンチマークを設定します。

要約(オリジナル)

Large Language Models (LLMs) excel in reasoning but remain constrained by their Chain-of-Thought (CoT) approach, which struggles with complex tasks requiring more nuanced topological reasoning. We introduce SOLAR, Scalable Optimization of Large-scale Architecture for Reasoning, a framework that dynamically optimizes various reasoning topologies to enhance accuracy and efficiency. Our Topological Annotation Generation (TAG) system automates topological dataset creation and segmentation, improving post-training and evaluation. Additionally, we propose Topological-Scaling, a reward-driven framework that aligns training and inference scaling, equipping LLMs with adaptive, task-aware reasoning. SOLAR achieves substantial gains on MATH and GSM8K: +5% accuracy with Topological Tuning, +9% with Topological Reward, and +10.02% with Hybrid Scaling. It also reduces response length by over 5% for complex problems, lowering inference latency. To foster the reward system, we train a multi-task Topological Reward Model (M-TRM), which autonomously selects the best reasoning topology and answer in a single pass, eliminating the need for training and inference on multiple single-task TRMs (S-TRMs), thus reducing both training cost and inference latency. In addition, in terms of performance, M-TRM surpasses all S-TRMs, improving accuracy by +10% and rank correlation by +9%. To the best of our knowledge, SOLAR sets a new benchmark for scalable, high-precision LLM reasoning while introducing an automated annotation process and a dynamic reasoning topology competition mechanism.

arxiv情報

著者 Chen Li,Yinyi Luo,Anudeep Bolimera,Marios Savvides
発行日 2025-03-06 15:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning はコメントを受け付けていません

Gumbel Counterfactual Generation From Language Models

要約

言語モデルの因果生成メカニズムを理解し、操作することは、その行動を制御するために不可欠です。
以前の研究では、主に表現手術などの技術(例えば、特定の概念に結び付けられた線形サブスペースのモデルアブレーションや操作)に依存していました。
介入の影響を正確に理解するために、\ emph {counteractuals}を調べることが有用です。たとえば、特定の介入後にモデルによって生成された場合、与えられた文がどのように現れたか。
パールの因果階層で明確にされているように、反事実上の推論は概念的に介入とは異なることを強調します。
この観察に基づいて、Gumbel-Max Trickを使用して言語モデルを構造方程式モデルとして再編成することにより、真の文字列反事実を生成するためのフレームワークを提案します。
この再定式化により、サンプリングノイズの同じインスタンス化に起因する元の文字列とそれらの反事実上の共同分布をモデル化することができます。
後知恵のガンベルサンプリングに基づいてアルゴリズムを開発し、潜在的なノイズ変数を推測し、観測された文字列の反事実を生成できます。
私たちの実験は、このアプローチが意味のある反事実を生成すると同時に、一般的に使用される介入技術がかなりの望ましくない副作用を持っていることを示すと同時に示すことを示しています。

要約(オリジナル)

Understanding and manipulating the causal generation mechanisms in language models is essential for controlling their behavior. Previous work has primarily relied on techniques such as representation surgery — e.g., model ablations or manipulation of linear subspaces tied to specific concepts — to \emph{intervene} on these models. To understand the impact of interventions precisely, it is useful to examine \emph{counterfactuals} — e.g., how a given sentence would have appeared had it been generated by the model following a specific intervention. We highlight that counterfactual reasoning is conceptually distinct from interventions, as articulated in Pearl’s causal hierarchy. Based on this observation, we propose a framework for generating true string counterfactuals by reformulating language models as a structural equation model using the Gumbel-max trick, which we called Gumbel counterfactual generation. This reformulation allows us to model the joint distribution over original strings and their counterfactuals resulting from the same instantiation of the sampling noise. We develop an algorithm based on hindsight Gumbel sampling that allows us to infer the latent noise variables and generate counterfactuals of observed strings. Our experiments demonstrate that the approach produces meaningful counterfactuals while at the same time showing that commonly used intervention techniques have considerable undesired side effects.

arxiv情報

著者 Shauli Ravfogel,Anej Svete,Vésteinn Snæbjarnarson,Ryan Cotterell
発行日 2025-03-06 15:26:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Gumbel Counterfactual Generation From Language Models はコメントを受け付けていません

Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model

要約

マルチモーダル大手言語モデル(MLLMS)は、視覚的および言語的推論を統合して、画像キャプションや視覚的な質問応答などの複雑なタスクに対処します。
MLLMSは顕著な汎用性を示していますが、MLLMSは特別なアプリケーションでのパフォーマンスが限られているように見えます。
しかし、ダウンストリームタスクのMLLMを調整すると、2つの重要な課題に遭遇します。タスクとトレーニングとターゲットのデータセットの間の分布シフトがターゲットパフォーマンスを制限する場合、および壊滅的な忘却がモデルの一般的な知識を消し去るオープンワールドの安定化です。
この作業では、MLLMチューニング方法論における最近の進歩を体系的にレビューし、それらを3つのパラダイムに分類します:(i)選択チューニング、(ii)添加チューニング、および(iii)再分析チューニング。
さらに、標準化された評価分析と体系的なチューニング原則を確立するために、一般的なMLLMアーキテクチャと多様なダウンストリームタスクにわたってこれらのチューニング戦略をベンチマークします。
最後に、このドメインでいくつかのオープンな課題を強調し、将来の研究の方向性を提案します。
この急速に進化する分野での進行中の進歩を促進するために、開発を継続的に追跡する公開リポジトリを提供します:https://github.com/wenkehuang/awesome-mllm-tuning。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) integrate visual and linguistic reasoning to address complex tasks such as image captioning and visual question answering. While MLLMs demonstrate remarkable versatility, MLLMs appears limited performance on special applications. But tuning MLLMs for downstream tasks encounters two key challenges: Task-Expert Specialization, where distribution shifts between pre-training and target datasets constrain target performance, and Open-World Stabilization, where catastrophic forgetting erases the model general knowledge. In this work, we systematically review recent advancements in MLLM tuning methodologies, classifying them into three paradigms: (I) Selective Tuning, (II) Additive Tuning, and (III) Reparameterization Tuning. Furthermore, we benchmark these tuning strategies across popular MLLM architectures and diverse downstream tasks to establish standardized evaluation analysis and systematic tuning principles. Finally, we highlight several open challenges in this domain and propose future research directions. To facilitate ongoing progress in this rapidly evolving field, we provide a public repository that continuously tracks developments: https://github.com/WenkeHuang/Awesome-MLLM-Tuning.

arxiv情報

著者 Wenke Huang,Jian Liang,Xianda Guo,Yiyang Fang,Guancheng Wan,Xuankun Rong,Chi Wen,Zekun Shi,Qingyun Li,Didi Zhu,Yanbiao Ma,Ke Liang,Bin Yang,He Li,Jiawei Shao,Mang Ye,Bo Du
発行日 2025-03-06 15:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model はコメントを受け付けていません

On the Challenges and Opportunities in Generative AI

要約

深い生成モデリングの分野は、ここ数年で急速に成長しました。
膨大な量のトレーニングデータが利用可能になり、スケーラブルな監視されていない学習パラダイムの進歩と組み合わされているため、最近の大規模生成モデルは、高解像度の画像とテキスト、およびビデオや分子などの構造化されたデータを合成する際に大きな約束を示しています。
ただし、現在の大規模な生成AIモデルは、ドメイン全体で広範囲にわたる採用を妨げるいくつかの基本的な欠点を示すと主張しています。
この作業では、これらの問題を特定し、能力、汎用性、信頼性をさらに高めるために対処すべき現代の生成AIパラダイムにおける重要な未解決の課題を強調することです。
これらの課題を特定することにより、研究者に実りある研究の方向性を調査するための洞察を提供し、より堅牢でアクセス可能な生成AIソリューションの開発を促進することを目指しています。

要約(オリジナル)

The field of deep generative modeling has grown rapidly in the last few years. With the availability of massive amounts of training data coupled with advances in scalable unsupervised learning paradigms, recent large-scale generative models show tremendous promise in synthesizing high-resolution images and text, as well as structured data such as videos and molecules. However, we argue that current large-scale generative AI models exhibit several fundamental shortcomings that hinder their widespread adoption across domains. In this work, our objective is to identify these issues and highlight key unresolved challenges in modern generative AI paradigms that should be addressed to further enhance their capabilities, versatility, and reliability. By identifying these challenges, we aim to provide researchers with insights for exploring fruitful research directions, thus fostering the development of more robust and accessible generative AI solutions.

arxiv情報

著者 Laura Manduchi,Kushagra Pandey,Clara Meister,Robert Bamler,Ryan Cotterell,Sina Däubener,Sophie Fellenz,Asja Fischer,Thomas Gärtner,Matthias Kirchler,Marius Kloft,Yingzhen Li,Christoph Lippert,Gerard de Melo,Eric Nalisnick,Björn Ommer,Rajesh Ranganath,Maja Rudolph,Karen Ullrich,Guy Van den Broeck,Julia E Vogt,Yixin Wang,Florian Wenzel,Frank Wood,Stephan Mandt,Vincent Fortuin
発行日 2025-03-06 15:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the Challenges and Opportunities in Generative AI はコメントを受け付けていません

Benchmarking Reasoning Robustness in Large Language Models

要約

Deepseekなどの推論における最近の大規模な言語モデル(LLMS)の成功にもかかわらず、我々は初めて堅牢性と一般化の推論における重要なジレンマを特定します。斬新なデータまたは不完全なデータの重要なパフォーマンスの劣化は、体系的な推論ではなく、記憶されたパターンへの依存を示唆しています。
綿密な調査により、この問題の根底にある4つの重要な制限が明らかになりました。(1)位置バイアス – モデルはマルチクエリ入力の以前のクエリを支持しますが、後者の間違ったクエリに答えることができます(たとえば、GPT-4oの精度は75.8%から72.8%に低下します)。
(2)命令の感度 – QWEN2.5シリーズで5.0〜7.5%、補助ガイダンスを備えたDeepSeek-V3で5.0%のパフォーマンス低下。
(3)数値的脆弱性 – 値の置換により、精度が大幅に低下します(たとえば、GPT-4Oは97.5パーセントから82.5パーセントに減少し、GPT-O1-MINIは97.5パーセントから92.5パーセントに低下します)。
(4)メモリの依存関係 – 重要なデータが欠落している場合、モデルは当てはまりに頼ります。
これらの発見は、厳密な論理的推論をめぐるヒューリスティックのリコールへの依存をさらに強調し、堅牢性の推論における課題を示しています。
これらの堅牢性の課題を包括的に調査するために、このペーパーでは、推論のギャップを公開するために情報が欠落している幻覚を悪用する数学ロブと呼ばれる新しいベンチマークを紹介します。
これは、トレーニング分布によく似た多様なデータセットを生成し、全体的な堅牢性評価を促進し、より堅牢な推論フレームワークの開発を進めるための命令ベースのアプローチによって達成されます。
フィールド要約の悪いキャラクター。

要約(オリジナル)

Despite the recent success of large language models (LLMs) in reasoning such as DeepSeek, we for the first time identify a key dilemma in reasoning robustness and generalization: significant performance degradation on novel or incomplete data, suggesting a reliance on memorized patterns rather than systematic reasoning. Our closer examination reveals four key unique limitations underlying this issue:(1) Positional bias–models favor earlier queries in multi-query inputs but answering the wrong one in the latter (e.g., GPT-4o’s accuracy drops from 75.8 percent to 72.8 percent); (2) Instruction sensitivity–performance declines by 5.0 to 7.5 percent in the Qwen2.5 Series and by 5.0 percent in DeepSeek-V3 with auxiliary guidance; (3) Numerical fragility–value substitution sharply reduces accuracy (e.g., GPT-4o drops from 97.5 percent to 82.5 percent, GPT-o1-mini drops from 97.5 percent to 92.5 percent); and (4) Memory dependence–models resort to guesswork when missing critical data. These findings further highlight the reliance on heuristic recall over rigorous logical inference, demonstrating challenges in reasoning robustness. To comprehensively investigate these robustness challenges, this paper introduces a novel benchmark, termed as Math-RoB, that exploits hallucinations triggered by missing information to expose reasoning gaps. This is achieved by an instruction-based approach to generate diverse datasets that closely resemble training distributions, facilitating a holistic robustness assessment and advancing the development of more robust reasoning frameworks. Bad character(s) in field Abstract.

arxiv情報

著者 Tong Yu,Yongcheng Jing,Xikun Zhang,Wentao Jiang,Wenjie Wu,Yingjie Wang,Wenbin Hu,Bo Du,Dacheng Tao
発行日 2025-03-06 15:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Benchmarking Reasoning Robustness in Large Language Models はコメントを受け付けていません