IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

要約

Expert Domainsで命令に従う情報検索(IR)を評価するために設計された最初の包括的なベンチマークであるIFIRを紹介します。
IFIRには、2,426の高品質の例が含まれており、4つの専門ドメインにわたって8つのサブセットをカバーしています:財務、法律、ヘルスケア、科学文献。
各サブセットは、カスタマイズされた手順が重要な実際のシナリオを複製する1つ以上のドメイン固有の検索タスクに対応します。
IFIRは、さまざまなレベルの複雑さに命令を組み込むことにより、指導に従う検索機能の詳細な分析を可能にします。
また、次の指示においてモデルパフォーマンスのより正確で信頼できる評価を提供するための新しいLLMベースの評価方法を提案します。
LLMSに基づいたものを含む15のフロンティア検索モデルに関する広範な実験を通じて、我々の結果は、現在のモデルが複雑でドメイン固有の指示に従うことで効果的に重要な課題に直面していることを明らかにしています。
さらに、これらの制限を強調するための詳細な分析を提供し、レトリーバー開発の将来の進歩を導くための貴重な洞察を提供します。

要約(オリジナル)

We introduce IFIR, the first comprehensive benchmark designed to evaluate instruction-following information retrieval (IR) in expert domains. IFIR includes 2,426 high-quality examples and covers eight subsets across four specialized domains: finance, law, healthcare, and science literature. Each subset addresses one or more domain-specific retrieval tasks, replicating real-world scenarios where customized instructions are critical. IFIR enables a detailed analysis of instruction-following retrieval capabilities by incorporating instructions at different levels of complexity. We also propose a novel LLM-based evaluation method to provide a more precise and reliable assessment of model performance in following instructions. Through extensive experiments on 15 frontier retrieval models, including those based on LLMs, our results reveal that current models face significant challenges in effectively following complex, domain-specific instructions. We further provide in-depth analyses to highlight these limitations, offering valuable insights to guide future advancements in retriever development.

arxiv情報

著者 Tingyu Song,Guo Gan,Mingsheng Shang,Yilun Zhao
発行日 2025-03-06 17:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval はコメントを受け付けていません

Get my drift? Catching LLM Task Drift with Activation Deltas

要約

LLMは、外部ソースからのデータに基づいてユーザー命令を実行するために、検索されたアプリケーションで一般的に使用されます。
たとえば、最新の検索エンジンはLLMSを使用して、関連する検索結果に基づいてクエリに回答します。
電子メールプラグインは、LLMを介してコンテンツを処理してメールを要約します。
ただし、これらのデータソースの潜在的に信頼されていない起源は、迅速なインジェクション攻撃につながる可能性があります。この場合、LLMは外部データに埋め込まれた自然言語の指示によって操作され、ユーザーの元の指示から逸脱します。
この偏差をタスクドリフトとして定義します。
タスクドリフトは、攻撃者がデータを除去したり、他のユーザーのLLMの出力に影響を与えることができるため、重大な懸念事項です。
LLMのアクティベーションは、タスクドリフトを検出するソリューションとして研究し、外部データを処理する前後の活性化の違いがこの現象と強く相関していることを示しています。
2つのプロービング方法を通じて、単純な線形分類器が、分散型テストセットでほぼ完璧なROC AUCでドリフトを検出できることを実証します。
ユーザーのタスク、システムプロンプト、および攻撃をどのように表現できるかについて最小限の仮定を行うことにより、これらの方法を評価します。
このアプローチは、これらの攻撃のいずれかについて訓練されることなく、迅速な注入、脱獄、悪意のある指示など、目に見えないタスクドメインに驚くほどよく一般化されることを観察します。
興味深いことに、このソリューションではLLMの変更を必要としないという事実(微調整など)、および既存のメタ採用ソリューションとの互換性により、費用対効果が高く展開が容易になります。
アクティベーションベースのタスク検査、デコード、および解釈性に関するさらなる調査を促進するために、500Kを超えるインスタンスのデータセット、Six Sota言語モデルの表現、および一連の検査ツールを備えた大規模なタスクトラッカーツールキットをリリースします。

要約(オリジナル)

LLMs are commonly used in retrieval-augmented applications to execute user instructions based on data from external sources. For example, modern search engines use LLMs to answer queries based on relevant search results; email plugins summarize emails by processing their content through an LLM. However, the potentially untrusted provenance of these data sources can lead to prompt injection attacks, where the LLM is manipulated by natural language instructions embedded in the external data, causing it to deviate from the user’s original instruction(s). We define this deviation as task drift. Task drift is a significant concern as it allows attackers to exfiltrate data or influence the LLM’s output for other users. We study LLM activations as a solution to detect task drift, showing that activation deltas – the difference in activations before and after processing external data – are strongly correlated with this phenomenon. Through two probing methods, we demonstrate that a simple linear classifier can detect drift with near-perfect ROC AUC on an out-of-distribution test set. We evaluate these methods by making minimal assumptions about how users’ tasks, system prompts, and attacks can be phrased. We observe that this approach generalizes surprisingly well to unseen task domains, such as prompt injections, jailbreaks, and malicious instructions, without being trained on any of these attacks. Interestingly, the fact that this solution does not require any modifications to the LLM (e.g., fine-tuning), as well as its compatibility with existing meta-prompting solutions, makes it cost-efficient and easy to deploy. To encourage further research on activation-based task inspection, decoding, and interpretability, we release our large-scale TaskTracker toolkit, featuring a dataset of over 500K instances, representations from six SoTA language models, and a suite of inspection tools.

arxiv情報

著者 Sahar Abdelnabi,Aideen Fay,Giovanni Cherubin,Ahmed Salem,Mario Fritz,Andrew Paverd
発行日 2025-03-06 17:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CY | Get my drift? Catching LLM Task Drift with Activation Deltas はコメントを受け付けていません

Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization

要約

大規模な言語モデル(LLM)が、社会的価値を順守する応答だけであることを確認することが、より広範なアプリケーションにとって非常に重要です。
以前の研究では、LLMが倫理に基づく判断などの道徳的認識を必要とするタスクでLLMが十分に実行できないことが多いことが示されています。
現在のアプローチは、このようなタスクの機能を改善するためにキュレーションされたデータセットを備えたLLMSを微調整していることに焦点を当てていますが、LLMSの倫理的反応を強化するための最適な学習パラダイムを選択することは、未解決の研究議論のままです。
この作業では、この基本的な質問に対処することを目指しています。現在の学習パラダイムは、LLMが十分な道徳的推論能力を獲得できるようにすることができますか?
分布のセマンティクス理論と道徳的談話の実用的な性質からの導き出し、私たちの分析は、パフォーマンスの改善がセマンティックレベルのタスクと同様のメカニズムに従うことを示しています。
この実用的なジレンマは、現在の学習パラダイムの一般化能力に大きな制限を課し、LLMSでの道徳的推論の獲得のための主要なボトルネックになっていると結論付けています。

要約(オリジナル)

Ensuring that Large Language Models (LLMs) return just responses which adhere to societal values is crucial for their broader application. Prior research has shown that LLMs often fail to perform satisfactorily on tasks requiring moral cognizance, such as ethics-based judgments. While current approaches have focused on fine-tuning LLMs with curated datasets to improve their capabilities on such tasks, choosing the optimal learning paradigm to enhance the ethical responses of LLMs remains an open research debate. In this work, we aim to address this fundamental question: can current learning paradigms enable LLMs to acquire sufficient moral reasoning capabilities? Drawing from distributional semantics theory and the pragmatic nature of moral discourse, our analysis indicates that performance improvements follow a mechanism similar to that of semantic-level tasks, and therefore remain affected by the pragmatic nature of morals latent in discourse, a phenomenon we name the pragmatic dilemma. We conclude that this pragmatic dilemma imposes significant limitations on the generalization ability of current learning paradigms, making it the primary bottleneck for moral reasoning acquisition in LLMs.

arxiv情報

著者 Guangliang Liu,Lei Jiang,Xitong Zhang,Kristen Marie Johnson
発行日 2025-03-06 17:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization はコメントを受け付けていません

An Information-theoretic Multi-task Representation Learning Framework for Natural Language Understanding

要約

このペーパーでは、すべてのタスクに対してノイズ不変の表現を抽出するための新しい原則的なマルチタスク表現学習フレームワーク(infOMTL)を提案します。
すべてのタスクの共有表現の十分性を保証し、冗長機能のマイナス効果を軽減します。これにより、マルチタスクパラダイムの下での事前訓練を受けた言語モデル(PLM)の言語理解を高めることができます。
第一に、すべてのターゲットタスクに対して十分な共有表現を学習するために、共有情報の最大化の原則が提案されています。
マルチタスクパラダイムの表現圧縮から生じる不足の問題を回避できます。
第二に、タスク固有の情報最小化原則は、各タスクの入力における潜在的な冗長機能の負の効果を軽減するように設計されています。
タスクに関係のある冗長な情報を圧縮し、マルチタスク予測のターゲットに関連する必要な情報を保持できます。
6つの分類ベンチマークでの実験では、特にデータが制約されたノイズの多いシナリオで、同じマルチタスク設定の下で12の比較マルチタスクメソッドを上回る方法が示されています。
広範な実験は、学習した表現がより十分で、データ効率が高く、堅牢であることを示しています。

要約(オリジナル)

This paper proposes a new principled multi-task representation learning framework (InfoMTL) to extract noise-invariant sufficient representations for all tasks. It ensures sufficiency of shared representations for all tasks and mitigates the negative effect of redundant features, which can enhance language understanding of pre-trained language models (PLMs) under the multi-task paradigm. Firstly, a shared information maximization principle is proposed to learn more sufficient shared representations for all target tasks. It can avoid the insufficiency issue arising from representation compression in the multi-task paradigm. Secondly, a task-specific information minimization principle is designed to mitigate the negative effect of potential redundant features in the input for each task. It can compress task-irrelevant redundant information and preserve necessary information relevant to the target for multi-task prediction. Experiments on six classification benchmarks show that our method outperforms 12 comparative multi-task methods under the same multi-task settings, especially in data-constrained and noisy scenarios. Extensive experiments demonstrate that the learned representations are more sufficient, data-efficient, and robust.

arxiv情報

著者 Dou Hu,Lingwei Wei,Wei Zhou,Songlin Hu
発行日 2025-03-06 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT | An Information-theoretic Multi-task Representation Learning Framework for Natural Language Understanding はコメントを受け付けていません

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue

要約

ユーザー満足度の推定(使用)として知られる会話システムに対するユーザーの満足度を理解することは、対話の質を評価し、ユーザーエクスペリエンスを向上させるために不可欠です。
ただし、ユーザーの不満の根本的な理由とユーザーの意図への注釈の高いコストの理解が限られているため、使用する既存の方法は課題に直面しています。
これらの課題に対処するために、効果的なユーザー満足度予測のための解釈可能なフレームワークである賞賛(解釈可能な満足度推定の計画と検索の調整)を提案します。
賞賛は3つの重要なモジュールを介して機能します。
戦略プランナーは、ユーザーの満足度を分類するための自然言語基準である戦略を開発します。
その後、この機能レトリバーは、大規模な言語モデル(LLM)からのユーザー満足度に関する知識を組み込み、発話から関連機能を取得します。
最後に、スコアアナライザーは戦略の予測を評価し、ユーザーの満足度を分類します。
実験結果は、賞賛が使用タスクのために3つのベンチマークで最先端のパフォーマンスを達成することを示しています。
優れたパフォーマンスを超えて、賞賛は追加の利点を提供します。
発話と戦略と効果的な調整を通じてインスタンスレベルの説明を提供することにより、解釈可能性を向上させます。
さらに、賞賛は、推論段階でLLMSの必要性を排除することにより、既存のアプローチよりも効率的に機能します。

要約(オリジナル)

Understanding user satisfaction with conversational systems, known as User Satisfaction Estimation (USE), is essential for assessing dialogue quality and enhancing user experiences. However, existing methods for USE face challenges due to limited understanding of underlying reasons for user dissatisfaction and the high costs of annotating user intentions. To address these challenges, we propose PRAISE (Plan and Retrieval Alignment for Interpretable Satisfaction Estimation), an interpretable framework for effective user satisfaction prediction. PRAISE operates through three key modules. The Strategy Planner develops strategies, which are natural language criteria for classifying user satisfaction. The Feature Retriever then incorporates knowledge on user satisfaction from Large Language Models (LLMs) and retrieves relevance features from utterances. Finally, the Score Analyzer evaluates strategy predictions and classifies user satisfaction. Experimental results demonstrate that PRAISE achieves state-of-the-art performance on three benchmarks for the USE task. Beyond its superior performance, PRAISE offers additional benefits. It enhances interpretability by providing instance-level explanations through effective alignment of utterances with strategies. Moreover, PRAISE operates more efficiently than existing approaches by eliminating the need for LLMs during the inference phase.

arxiv情報

著者 Sangyeop Kim,Sohhyung Park,Jaewon Jung,Jinseok Kim,Sungzoon Cho
発行日 2025-03-06 18:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue はコメントを受け付けていません

DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module

要約

私たちは、小学校、数学の問題を提示する短いテキストのデータセットであるGSM8Kの推論を見ていきます。
Mirzadeh et al。
(2024)、データセットの現在のLLMの進行は、より良い推論ではなく、より広範な事前トレーニングデータ分布への暴露によって説明される可能性があります。
次に、データまたは劣等なトレーニングの理由であるモデルを支援するための新しい情報ソースを紹介します:談話構造。
談話構造は、LLAMA2 13Bなどのモデルのパフォーマンスを最大160%改善することを示しています。
データセットを記憶している可能性が最も高いモデルでさえ、モデルに談話構造情報を追加すると、予測が改善され、配布の例での大きなモデルパフォーマンスが劇的に向上します。

要約(オリジナル)

We look at reasoning on GSM8k, a dataset of short texts presenting primary school, math problems. We find, with Mirzadeh et al. (2024), that current LLM progress on the data set may not be explained by better reasoning but by exposure to a broader pretraining data distribution. We then introduce a novel information source for helping models with less data or inferior training reason better: discourse structure. We show that discourse structure improves performance for models like Llama2 13b by up to 160%. Even for models that have most likely memorized the data set, adding discourse structural information to the model still improves predictions and dramatically improves large model performance on out of distribution examples.

arxiv情報

著者 Krish Sharma,Niyar R Barman,Nicholas Asher,Akshay Chaturvedi
発行日 2025-03-06 18:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module はコメントを受け付けていません

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

要約

Deepseek-R1やOpenai-O3などの最新の推論強化ラージモデル(推論LLM)は、驚くべき成功を示しています。
ただし、特に最終世代を評価するだけでなく、推論プロセスの質を調べることに関して、このような推論強化の高度な医療領域への適用は明確に評価されていません。
この研究では、MEDRベンチを提示します。これは、1,453の構造化された患者症例を含む推論に焦点を当てた医学的評価ベンチマークで、症例報告から採掘された推論参照を備えています。
私たちのベンチマークは、一般的な疾患とまれな疾患の両方を含む13の身体システムと10の特殊障害に及びます。
評価では、3つの重要な臨床段階で構成される汎用性のあるフレームワークを紹介します。評価の推奨、診断意思決定、治療計画を紹介し、ヘルスケアの患者の旅全体でLLMSのパフォーマンスを包括的に獲得します。
メトリックについては、効率、事実性、および完全性の観点からスケーラブルな方法でフリーテキストの推論応答を自動化および客観的に定量化するように設計された新しいエージェントシステムである推論評価者を提案します。
その結果、DeepSeek-R1、Openai-O3-Miniなど、5つの最先端の推論LLMを評価します。
我々の結果は、現在のLLMが十分な重要な評価結果を伴う比較的単純な診断タスクを処理できることを明らかにし、一般に85%を超える精度を達成しています。
しかし、彼らは依然として、評価の推奨や治療計画など、より複雑なタスクに苦労しています。
推論では、彼らの推論プロセスは一般に信頼性が高く、事実上のスコアは90%を超えていますが、多くの場合、重要な推論ステップを省略しています。
私たちの研究は、現在の臨床LLMのさらなる開発方向を明確に明らかにしています。

要約(オリジナル)

The latest reasoning-enhanced large language models (reasoning LLMs), such as DeepSeek-R1 and OpenAI-o3, have demonstrated remarkable success. However, the application of such reasoning enhancements to the highly professional medical domain has not been clearly evaluated, particularly regarding with not only assessing the final generation but also examining the quality of their reasoning processes. In this study, we present MedR-Bench, a reasoning-focused medical evaluation benchmark comprising 1,453 structured patient cases with reasoning references mined from case reports. Our benchmark spans 13 body systems and 10 specialty disorders, encompassing both common and rare diseases. In our evaluation, we introduce a versatile framework consisting of three critical clinical stages: assessment recommendation, diagnostic decision-making, and treatment planning, comprehensively capturing the LLMs’ performance across the entire patient journey in healthcare. For metrics, we propose a novel agentic system, Reasoning Evaluator, designed to automate and objectively quantify free-text reasoning responses in a scalable manner from the perspectives of efficiency, factuality, and completeness by dynamically searching and performing cross-referencing checks. As a result, we assess five state-of-the-art reasoning LLMs, including DeepSeek-R1, OpenAI-o3-mini, and others. Our results reveal that current LLMs can handle relatively simple diagnostic tasks with sufficient critical assessment results, achieving accuracy generally over 85%. However, they still struggle with more complex tasks, such as assessment recommendation and treatment planning. In reasoning, their reasoning processes are generally reliable, with factuality scores exceeding 90%, though they often omit critical reasoning steps. Our study clearly reveals further development directions for current clinical LLMs.

arxiv情報

著者 Pengcheng Qiu,Chaoyi Wu,Shuyu Liu,Weike Zhao,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-03-06 18:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases はコメントを受け付けていません

UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets

要約

大規模な言語モデル(LLM)は、大規模なデータセットでのトレーニング中に必然的に有害な情報を取得します。
LLM Unroderningは、モデルの全体的なパフォーマンスを維持しながら、このような有害な情報の影響を排除することを目的としています。
勾配上昇ベースのアプローチに代表される既存の未学習方法は、主にターゲットデータの忘れに焦点を当て、学習の有効性に対する論理的に関連する知識の重要な影響を見落とします。
この論文では、理論的分析と実験的分析の両方を通じて、最初に、最適ではない未学習のパフォーマンスの重要な理由は、モデルが論理的に関連する知識を持って推論を通じてターゲットコンテンツを再構築できることであることを実証します。
この問題に対処するために、パラメーター外挿(UIPE)を介して未学習の改善を提案します。これは、忘却ターゲットと高度に相関する知識を削除する方法です。
実験結果は、uipeが豆腐ベンチマークでのさまざまな主流LLMの解除方法のパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Large Language Models (LLMs) inevitably acquire harmful information during training on massive datasets. LLM unlearning aims to eliminate the influence of such harmful information while maintaining the model’s overall performance. Existing unlearning methods, represented by gradient ascent-based approaches, primarily focus on forgetting target data while overlooking the crucial impact of logically related knowledge on the effectiveness of unlearning. In this paper, through both theoretical and experimental analyses, we first demonstrate that a key reason for the suboptimal unlearning performance is that models can reconstruct the target content through reasoning with logically related knowledge. To address this issue, we propose Unlearning Improvement via Parameter Extrapolation (UIPE), a method that removes knowledge highly correlated with the forgetting targets. Experimental results show that UIPE significantly enhances the performance of various mainstream LLM unlearning methods on the TOFU benchmark.

arxiv情報

著者 Wenyu Wang,Mengqi Zhang,Xiaotian Ye,Zhaochun Ren,Zhumin Chen,Pengjie Ren
発行日 2025-03-06 18:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets はコメントを受け付けていません

Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities

要約

話しかけられた対話モデリングは、テキストベースの言語モデリングを超えた独自の課題を導入し、堅牢なターンテイキング、バックチャネル、およびリアルタイムの相互作用を要求します。
ほとんどの話し言葉モデル(SDMS)は半分二重処理に依存していますが(一度に1回のスピーチを処理する)、新たな二重SDMが同時に聞いて話すことができ、より自然で魅力的な会話を可能にします。
ただし、このようなモデルの現在の評価は限られたままであり、多くの場合、ターンベースのメトリックまたは高レベルのコーパス分析に焦点を当てています(例:ターンギャップ、ポーズ)。
このギャップに対処するために、主要な会話行動を体系的に評価する新しいベンチマークである全二重ベンチを提示します:一時停止処理、バックチャネル、ターンテイキング、および中断管理。
私たちのフレームワークは、SDMSのインタラクティブパフォーマンスの一貫した再現性のある評価のために自動メトリックを使用しています。
オープンで標準化された評価ベンチマークを提供することにより、私たちは話し言葉のモデリングを進め、よりインタラクティブで自然な対話システムの開発を促進することを目指しています。

要約(オリジナル)

Spoken dialogue modeling introduces unique challenges beyond text-based language modeling, demanding robust turn-taking, backchanneling, and real-time interaction. Although most Spoken Dialogue Models (SDMs) rely on half-duplex processing (handling speech one turn at a time), emerging full-duplex SDMs can listen and speak simultaneously, enabling more natural and engaging conversations. However, current evaluations of such models remain limited, often focusing on turn-based metrics or high-level corpus analyses (e.g., turn gaps, pauses). To address this gap, we present Full-Duplex-Bench, a new benchmark that systematically evaluates key conversational behaviors: pause handling, backchanneling, turn-taking, and interruption management. Our framework uses automatic metrics for consistent and reproducible assessments of SDMs’ interactive performance. By offering an open and standardized evaluation benchmark, we aim to advance spoken dialogue modeling and encourage the development of more interactive and natural dialogue systems.

arxiv情報

著者 Guan-Ting Lin,Jiachen Lian,Tingle Li,Qirui Wang,Gopala Anumanchipalli,Alexander H. Liu,Hung-yi Lee
発行日 2025-03-06 18:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities はコメントを受け付けていません

LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

要約

音声からスピーチのダイアログシステムの最近の進歩は、マルチモーダルの相互作用のためにLLMを活用していますが、それらは微調整要件、高い計算オーバーヘッド、およびテキストスピーチの不整列によって妨げられたままです。
既存の音声対応LLMは、LLMを変更することにより会話の品質を低下させることが多く、それにより言語能力が損なわれます。
対照的に、ベースLLMの機能を完全に保存しながら、低レイテンシで高品質の音声を生成する軽量の30mパラメーター、LLMに依存しない、自己網膜ストリーミングTTSシステムであるLLMVoxを提案します。
私たちのアプローチは、同等のレイテンシとUTMOSスコアで動作しながら、音声対応LLMSと比較して大幅に低い単語エラー率を達成します。
LLMVoxは、マルチキュートークンストリーミングシステムを介してLLM処理からの音声合成を切り離すことにより、シームレスで無限の長さの対話をサポートします。
そのプラグアンドプレイデザインは、異なるバックボーンを持つさまざまなタスクの拡張も容易にします。
さらに、LLMVoxは、データセットの適応のみを備えた新しい言語に一般化し、アラビア語の音声タスクで文字エラー率が低くなります。
さらに、LLMVoxをビジョン言語モデルと統合して、追加のマルチモーダルトレーニングを必要とせずに、音声、テキスト、視覚機能を備えたOmni-Modelを作成しました。
当社のコードベースとプロジェクトページは、https://mbzuai-oryx.github.io/llmvoxで入手できます。

要約(オリジナル)

Recent advancements in speech-to-speech dialogue systems leverage LLMs for multimodal interactions, yet they remain hindered by fine-tuning requirements, high computational overhead, and text-speech misalignment. Existing speech-enabled LLMs often degrade conversational quality by modifying the LLM, thereby compromising its linguistic capabilities. In contrast, we propose LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS system that generates high-quality speech with low latency, while fully preserving the capabilities of the base LLM. Our approach achieves a significantly lower Word Error Rate compared to speech-enabled LLMs, while operating at comparable latency and UTMOS score. By decoupling speech synthesis from LLM processing via a multi-queue token streaming system, LLMVoX supports seamless, infinite-length dialogues. Its plug-and-play design also facilitates extension to various tasks with different backbones. Furthermore, LLMVoX generalizes to new languages with only dataset adaptation, attaining a low Character Error Rate on an Arabic speech task. Additionally, we have integrated LLMVoX with a Vision-Language Model to create an omni-model with speech, text, and vision capabilities, without requiring additional multimodal training. Our code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .

arxiv情報

著者 Sambal Shikhar,Mohammed Irfan Kurpath,Sahal Shaji Mullappilly,Jean Lahoud,Fahad Khan,Rao Muhammad Anwer,Salman Khan,Hisham Cholakkal
発行日 2025-03-06 18:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM はコメントを受け付けていません