Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies

要約

生の予測をスケーリングすることで予測されるように、大規模なモデルは、多くの分野、特に人間レベルに近づいたり、したりする自然言語生成タスクで画期的な進歩を遂げました。
ただし、パラメーターの前例のないスケールは、大幅な計算コストとストレージコストをもたらします。
これらの大規模なモデルには、実質的な計算リソースと動作にGPUメモリが必要です。
大規模なモデルを特定のダウンストリームタスクに適応させる場合、それらの大規模なパラメータースケールは、限られた計算能力とGPUメモリを備えたハードウェアプラットフォームでの微調整に大きな課題をもたらします。
この問題に対処するために、パラメーター効率の高い微調整(PEFT)は、さまざまな下流タスクに合わせて大規模な訓練モデルのパラメーターを効率的に調整することにより、実用的なソリューションを提供します。
具体的には、PEFTは、特定のタスクまたはドメインに適応するために、事前に訓練された大型モデルのパラメーターを調整し、追加のパラメーターと必要な計算リソースの導入を最小限に抑えます。
このレビューでは、主にPEFTの予備的な知識、さまざまなPEFTアルゴリズムのコアアイデアと原則、PEFTの応用、および潜在的な将来の研究方向性を紹介します。
このレビューを読むことにより、利害関係者はPEFTの方法論を迅速に把握できるため、その開発と革新を加速できると考えています。

要約(オリジナル)

The large models, as predicted by scaling raw forecasts, have made groundbreaking progress in many fields, particularly in natural language generation tasks, where they have approached or even surpassed human levels. However, the unprecedented scale of their parameters brings significant computational and storage costs. These large models require substantial computational resources and GPU memory to operate. When adapting large models to specific downstream tasks, their massive parameter scale poses a significant challenge in fine-tuning on hardware platforms with limited computational power and GPU memory. To address this issue, Parameter-Efficient Fine-Tuning (PEFT) offers a practical solution by efficiently adjusting the parameters of large pre-trained models to suit various downstream tasks. Specifically, PEFT adjusts the parameters of pre-trained large models to adapt to specific tasks or domains, minimizing the introduction of additional parameters and the computational resources required. This review mainly introduces the preliminary knowledge of PEFT, the core ideas and principles of various PEFT algorithms, the applications of PEFT, and potential future research directions. By reading this review, we believe that interested parties can quickly grasp the PEFT methodology, thereby accelerating its development and innovation.

arxiv情報

著者 Luping Wang,Sheng Chen,Linnan Jiang,Shu Pan,Runze Cai,Sen Yang,Fei Yang
発行日 2025-04-24 07:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies はコメントを受け付けていません

From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs

要約

近年、大規模な言語モデル(LLMS)は、従来の自然言語処理(NLP)パイプラインを最適化し、パフォーマンスと一般化を改善することにより、人工知能を大幅に進めています。
これにより、さまざまなシステムへの統合が促進されました。
当社を含む多くのNLPシステムは、LLMを直接組み込む「1段階」パイプラインを採用しています。
効果的ですが、このアプローチは、満足のいく結果を達成するために大きなモデルパラメーターが必要であるため、かなりのコストと待ち時間を負います。
このペーパーでは、LLMベースのフレームワークにおけるコストパフォーマンスのジレンマをタックルするために、3段階のコスト効率の高いエンドツーエンドLLM展開パイプラインを含むパイプラインを含むパイプラインを含むパイプラインを含むコンピューションを紹介します。
私たちのアプローチは、オンラインシステムのコストとパフォーマンスのために最適化された超小型モデルを生み出し、システムアーキテクチャを簡素化します。
当初、複雑なタスクを関数コールベースのLLM駆動型パイプラインに変換することにより、教師モデルとして高品質のデータを生成するための最適なパフォーマンスプロトタイプシステムが構築されています。
第2段階では、拒否の微調整、強化学習、知識の蒸留などの手法を組み合わせて、知識をより小さな0.5Bの学生モデルに移し、最小限のコストで効果的なパフォーマンスを提供します。
最終段階では、量子化と剪定を0.4Bに極端に圧縮するために適用され、超低レイテンシとコストを達成します。
フレームワークのモジュラー設計とクロスドメイン機能は、他のNLP領域での潜在的な適用性を示唆しています。

要約(オリジナル)

In recent years, Large Language Models (LLMs) have significantly advanced artificial intelligence by optimizing traditional Natural Language Processing (NLP) pipelines, improving performance and generalization. This has spurred their integration into various systems. Many NLP systems, including ours, employ a ‘one-stage’ pipeline directly incorporating LLMs. While effective, this approach incurs substantial costs and latency due to the need for large model parameters to achieve satisfactory outcomes. This paper introduces a three-stage cost-efficient end-to-end LLM deployment pipeline-including prototyping, knowledge transfer, and model compression-to tackle the cost-performance dilemma in LLM-based frameworks. Our approach yields a super tiny model optimized for cost and performance in online systems, simplifying the system architecture. Initially, by transforming complex tasks into a function call-based LLM-driven pipeline, an optimal performance prototype system is constructed to produce high-quality data as a teacher model. The second stage combines techniques like rejection fine-tuning, reinforcement learning, and knowledge distillation to transfer knowledge to a smaller 0.5B student model, delivering effective performance at minimal cost. The final stage applies quantization and pruning to extremely compress models to 0.4B, achieving ultra-low latency and cost. The framework’s modular design and cross-domain capabilities suggest potential applicability in other NLP areas.

arxiv情報

著者 Jiliang Ni,Jiachen Pu,Zhongyi Yang,Kun Zhou,Hui Wang,Xiaoliang Xiao,Dakui Wang,Xin Li,Jingfeng Luo,Conggang Hu
発行日 2025-04-24 07:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs はコメントを受け付けていません

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

要約

マルチモーダル言語分析は、複数のモダリティを活用して、人間の会話の発話の根底にある高レベルのセマンティクスの理解を高めるための急速に進化する分野です。
その重要性にもかかわらず、認知レベルのセマンティクスを理解するためのマルチモーダル大手言語モデル(MLLM)の能力を調査していません。
この論文では、このギャップに対処するために特別に設計された包括的なベンチマークであるMMLAを紹介します。
MMLAは、段階的なシナリオと現実世界の両方のシナリオから引き出された61k以上のマルチモーダル発話で構成され、マルチモーダルセマンティクスの6つのコアディメンションをカバーしています。
ゼロショット推論、監視付き微調整、および命令チューニングの3つの方法を使用して、LLMSとMLLMSの8つの主流分岐を評価します。
広範な実験により、微調整されたモデルでさえ、約60%〜70%の精度しか達成されておらず、複雑な人間の言語を理解する際の現在のMLLMの制限を強調していることが明らかになりました。
MMLAは、マルチモーダル言語分析における大規模な言語モデルの可能性を調査し、この分野を進めるための貴重なリソースを提供するための強固な基盤として役立つと考えています。
データセットとコードは、https://github.com/thuiar/mmlaでオープンソーリングされています。

要約(オリジナル)

Multimodal language analysis is a rapidly evolving field that leverages multiple modalities to enhance the understanding of high-level semantics underlying human conversational utterances. Despite its significance, little research has investigated the capability of multimodal large language models (MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA comprises over 61K multimodal utterances drawn from both staged and real-world scenarios, covering six core dimensions of multimodal semantics: intent, emotion, dialogue act, sentiment, speaking style, and communication behavior. We evaluate eight mainstream branches of LLMs and MLLMs using three methods: zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive experiments reveal that even fine-tuned models achieve only about 60%~70% accuracy, underscoring the limitations of current MLLMs in understanding complex human language. We believe that MMLA will serve as a solid foundation for exploring the potential of large language models in multimodal language analysis and provide valuable resources to advance this field. The datasets and code are open-sourced at https://github.com/thuiar/MMLA.

arxiv情報

著者 Hanlei Zhang,Zhuohang Li,Yeshuang Zhu,Hua Xu,Peiwu Wang,Haige Zhu,Jie Zhou,Jinchao Zhang
発行日 2025-04-24 07:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM | Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark はコメントを受け付けていません

SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection

要約

テキストベースの感情検出に関する共有タスクを提示し、7つの異なる言語ファミリから30以上の言語をカバーしています。
これらの言語は主に低リソースであり、さまざまな大陸で話されています。
データインスタンスは、6つの感情クラスでマルチラベル付けされており、感情強度のために注釈が付けられた11の言語の追加データセットがあります。
参加者は、3つのトラックでラベルを予測するように求められました:(a)マルチサーベル感情検出、(b)感情強度スコア検出、および(c)言語間感情検出。
このタスクは、700人以上の参加者を引き付けました。
200を超えるチームと93のシステム説明論文から最終的な提出を受け取りました。
ベースラインの結果と、最もパフォーマンスの高いシステム、最も一般的なアプローチ、およびさまざまなトラックや言語で最も効果的な方法に関する調査結果を報告します。
このタスクのデータセットは公開されています。
データセットは、semeval2025タスク11 https://brighter-dataset.github.ioで入手できます

要約(オリジナル)

We present our shared task on text-based emotion detection, covering more than 30 languages from seven distinct language families. These languages are predominantly low-resource and are spoken across various continents. The data instances are multi-labeled with six emotional classes, with additional datasets in 11 languages annotated for emotion intensity. Participants were asked to predict labels in three tracks: (a) multilabel emotion detection, (b) emotion intensity score detection, and (c) cross-lingual emotion detection. The task attracted over 700 participants. We received final submissions from more than 200 teams and 93 system description papers. We report baseline results, along with findings on the best-performing systems, the most common approaches, and the most effective methods across different tracks and languages. The datasets for this task are publicly available. The dataset is available at SemEval2025 Task 11 https://brighter-dataset.github.io

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Seid Muhie Yimam,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine De Kock,Tadesse Destaw Belay,Ibrahim Said Ahmad,Nirmal Surange,Daniela Teodorescu,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino Ali,Vladimir Araujo,Abinew Ali Ayele,Oana Ignat,Alexander Panchenko,Yi Zhou,Saif M. Mohammad
発行日 2025-04-24 07:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection はコメントを受け付けていません

Bridging Cognition and Emotion: Empathy-Driven Multimodal Misinformation Detection

要約

デジタル時代では、ソーシャルメディアは情報普及のための主要な導管となっていますが、誤った情報の急速な広がりも促進します。
従来の誤報検出方法は、主に表面レベルの特徴に焦点を当て、伝播プロセスにおける人間の共感の重要な役割を見落としています。
このギャップに対処するために、私たちは、創造者と読者の両方の視点からの誤った情報を分析するために認知的および感情的な共感を統合するデュアルアスペクト共感フレームワーク(DAE)を提案します。
クリエイターの認知戦略と感情的な魅力を調べ、読者の認知判断と大規模な言語モデル(LLM)を使用した感情的反応をシミュレートすることにより、DAEは誤った情報検出に対してより包括的で人間中心のアプローチを提供します。
さらに、応答の信頼性と多様性を高めるために、共感を意識したフィルタリングメカニズムをさらに導入します。
ベンチマークデータセットの実験結果は、DAEが既存の方法を上回り、マルチモーダル誤った情報検出の新しいパラダイムを提供することを示しています。

要約(オリジナル)

In the digital era, social media has become a major conduit for information dissemination, yet it also facilitates the rapid spread of misinformation. Traditional misinformation detection methods primarily focus on surface-level features, overlooking the crucial roles of human empathy in the propagation process. To address this gap, we propose the Dual-Aspect Empathy Framework (DAE), which integrates cognitive and emotional empathy to analyze misinformation from both the creator and reader perspectives. By examining creators’ cognitive strategies and emotional appeals, as well as simulating readers’ cognitive judgments and emotional responses using Large Language Models (LLMs), DAE offers a more comprehensive and human-centric approach to misinformation detection. Moreover, we further introduce an empathy-aware filtering mechanism to enhance response authenticity and diversity. Experimental results on benchmark datasets demonstrate that DAE outperforms existing methods, providing a novel paradigm for multimodal misinformation detection.

arxiv情報

著者 Zihan Wang,Lu Yuan,Zhengxuan Zhang,Qing Zhao
発行日 2025-04-24 07:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Bridging Cognition and Emotion: Empathy-Driven Multimodal Misinformation Detection はコメントを受け付けていません

M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

要約

相互補強効果(MRE)は、情報抽出とモデルの解釈可能性の交差点の新興サブフィールドです。
MREは、異なる粒度のタスク間の相互理解を活用し、共同モデリングを通じて粗粒と細粒の両方のタスクのパフォーマンスを向上させることを目指しています。
MREはテキストドメインで調査および検証されていますが、視覚ドメインとマルチモーダルドメインへの適用性は未開拓のままです。
この作業では、MREを初めてマルチモーダル情報抽出ドメインに拡張します。
具体的には、新しいタスクを紹介します:マルチモーダル相互補強効果(M-MRE)、およびこのタスクをサポートするために対応するデータセットを構築します。
M-MREによってもたらされる課題に対処するために、さまざまな大きなビジョン言語モデル(LVLMS)と完全に互換性のあるプロンプト形式アダプター(PFA)をさらに提案します。
実験結果は、マルチモーダルのテキストイメージ理解シナリオであるM-MREタスクでもMREが観察できることを示しています。
これは、MREが3つの相互に関連したタスクにわたって相互の利益を促進し、テキストドメインを超えた一般化可能性を確認するという強力な証拠を提供します。

要約(オリジナル)

Mutual Reinforcement Effect (MRE) is an emerging subfield at the intersection of information extraction and model interpretability. MRE aims to leverage the mutual understanding between tasks of different granularities, enhancing the performance of both coarse-grained and fine-grained tasks through joint modeling. While MRE has been explored and validated in the textual domain, its applicability to visual and multimodal domains remains unexplored. In this work, we extend MRE to the multimodal information extraction domain for the first time. Specifically, we introduce a new task: Multimodal Mutual Reinforcement Effect (M-MRE), and construct a corresponding dataset to support this task. To address the challenges posed by M-MRE, we further propose a Prompt Format Adapter (PFA) that is fully compatible with various Large Vision-Language Models (LVLMs). Experimental results demonstrate that MRE can also be observed in the M-MRE task, a multimodal text-image understanding scenario. This provides strong evidence that MRE facilitates mutual gains across three interrelated tasks, confirming its generalizability beyond the textual domain.

arxiv情報

著者 Chengguang Gan,Sunbowen Lee,Zhixi Cai,Yanbin Wei,Lei Zheng,Yunhao Liang,Shiwen Ni,Tatsunori Mori
発行日 2025-04-24 08:14:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM | M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction はコメントを受け付けていません

PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare

要約

大規模な言語モデル(LLMS)の微調整は、特定のタスクのモデルパフォーマンスを改善するためのデフォルトの練習となっています。
ただし、パフォーマンスの改善は、膨大な量の注釈付きデータに関するトレーニングのコストでもたらされ、重要なデータプライバシーの懸念につながる可能性があります。
特に、ヘルスケアドメインは、データプライバシーの問題にさらされている最も敏感なドメインの1つです。
このホワイトペーパーでは、患者データの微調整や適応を必要とせずに、健康予測タスクに効果的なLLMSの設計を可能にするモデルマージのフレームワークであるPatientDXを提示します。
私たちの提案は、LLMSのマージとして知られる最近提案された手法に基づいており、ビルディングブロックのマージ戦略を最適化することを目的としています。
PatientDXは、数値の推論に適応された重要なモデルを使用し、パフォーマンスメトリックに基づいたが、これらのデータでLLMをトレーニングすることはありません。
MIMIC-IVデータセットの死亡タスクを使用した実験は、初期モデルと比較した場合、AUROCに関して最大​​7%の改善を示しています。
さらに、微調整されたモデルと比較した場合、私たちの提案は、パフォーマンスを損なうことなくデータリークの問題になる傾向が低いことを確認します。
最後に、ケーススタディを通じて提案の能力を定性的に示します。
私たちの最高のモデルは、https://huggingface.co/ jgmorenof/mistral \ _merged \ _0 \ _4で公開されています。

要約(オリジナル)

Fine-tuning of Large Language Models (LLMs) has become the default practice for improving model performance on a given task. However, performance improvement comes at the cost of training on vast amounts of annotated data which could be sensitive leading to significant data privacy concerns. In particular, the healthcare domain is one of the most sensitive domains exposed to data privacy issues. In this paper, we present PatientDx, a framework of model merging that allows the design of effective LLMs for health-predictive tasks without requiring fine-tuning nor adaptation on patient data. Our proposal is based on recently proposed techniques known as merging of LLMs and aims to optimize a building block merging strategy. PatientDx uses a pivotal model adapted to numerical reasoning and tunes hyperparameters on examples based on a performance metric but without training of the LLM on these data. Experiments using the mortality tasks of the MIMIC-IV dataset show improvements up to 7% in terms of AUROC when compared to initial models. Additionally, we confirm that when compared to fine-tuned models, our proposal is less prone to data leak problems without hurting performance. Finally, we qualitatively show the capabilities of our proposal through a case study. Our best model is publicly available at https://huggingface.co/ Jgmorenof/mistral\_merged\_0\_4.

arxiv情報

著者 Jose G. Moreno,Jesus Lovon,M’Rick Robin-Charlet,Christine Damase-Michel,Lynda Tamine
発行日 2025-04-24 08:21:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare はコメントを受け付けていません

TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

要約

サッカーは世界的に人気のあるスポーツイベントであり、通常、長い試合と特徴的なハイライトの瞬間が特徴です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、時間的接地とビデオの理解に有望な能力を提供します。サッカーの解説生成には、長い形式のビデオよりも正確な時間的局在と意味的に豊富な説明が必要になることがよくあります。
ただし、既存のサッカーMLLMは、多くの場合、キャプション生成のために一時的なアプリオリに依存しているため、サッカーのビデオをエンドツーエンドで処理することはできません。
いくつかの従来のアプローチは、複雑であり、グローバルなコンテキストをキャプチャできない2段階のパラダイムに従いますが、最適ではないパフォーマンスを実現しています。
上記の問題を解決するために、フルマッチサッカービデオのシングルアンカーの密なビデオキャプション(SDVC)の最初のエンドツーエンドのサッカーMLLMであるTimeSoccerを提示します。
TimeSoccerは共同でタイムスタンプを予測し、1回のパスでキャプションを生成し、45分間の試合でグローバルコンテキストモデリングを可能にします。
サッカーの試合の長いビデオ理解をサポートするために、粗から財政の戦略を介して代表的なフレームを適応的に選択し、補完的なトレーニングパラダイムを組み込んでモデルの長い一時的なシーケンスを処理する能力を強化するために、代表的なフレームを適応的に選択するトレーニングフリーのモーション認識フレーム圧縮モジュールであるMofa-Selectを紹介します。
広範な実験は、TimeSoccerがSDVCタスクでエンドツーエンドの形式で最先端の(SOTA)パフォーマンスを達成し、正確な時間的アライメントと強力なセマンティック関連性を備えた高品質の解説を生成することを示しています。

要約(オリジナル)

Soccer is a globally popular sporting event, typically characterized by long matches and distinctive highlight moments. Recent advances in Multimodal Large Language Models (MLLMs) offer promising capabilities in temporal grounding and video understanding, soccer commentary generation often requires precise temporal localization and semantically rich descriptions over long-form video. However, existing soccer MLLMs often rely on the temporal a priori for caption generation, so they cannot process the soccer video end-to-end. While some traditional approaches follow a two-step paradigm that is complex and fails to capture the global context to achieve suboptimal performance. To solve the above issues, we present TimeSoccer, the first end-to-end soccer MLLM for Single-anchor Dense Video Captioning (SDVC) in full-match soccer videos. TimeSoccer jointly predicts timestamps and generates captions in a single pass, enabling global context modeling across 45-minute matches. To support long video understanding of soccer matches, we introduce MoFA-Select, a training-free, motion-aware frame compression module that adaptively selects representative frames via a coarse-to-fine strategy, and incorporates complementary training paradigms to strengthen the model’s ability to handle long temporal sequences. Extensive experiments demonstrate that our TimeSoccer achieves State-of-The-Art (SoTA) performance on the SDVC task in an end-to-end form, generating high-quality commentary with accurate temporal alignment and strong semantic relevance.

arxiv情報

著者 Ling You,Wenxuan Huang,Xinni Xie,Xiangyi Wei,Bangyan Li,Shaohui Lin,Yang Li,Changbo Wang
発行日 2025-04-24 08:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation はコメントを受け付けていません

LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams

要約

長いコンテキストの理解は、特に音声ベースの要素、高い冗長性、および不均一な情報密度を特徴とする現実世界の対話について、自然言語処理に大きな課題をもたらします。
大規模な言語モデル(LLM)は既存のベンチマークで印象的な結果を達成しますが、これらのデータセットはそのようなテキストの複雑さを反映することができず、実際のシナリオへの適用性を制限します。
このギャップを埋めるために、実世界のシナリオの冗長性が豊富で会話的な性質を反映するように設計されたライブストリームから派生した最初の音声の長いテキストデータセットを構築します。
検索依存、推論依存、およびハイブリッドの3つのカテゴリでタスクを構築します。
次に、一般的なLLMと専門的な方法の両方を評価して、これらのタスクで長いコンテストを理解する能力を評価します。
私たちの結果は、現在の方法が強いタスク固有の好みを示し、非常に冗長な入力でパフォーマンスが低いことを示しています。
話し言葉の冗長性をより適切に処理し、タスク全体で強力なパフォーマンスを実現する新しいベースラインを提案します。
私たちの調査結果は、現在の方法の重要な制限を強調し、長期の理解を改善するための将来の方向性を示唆しています。
最後に、当社のベンチマークは、長い文脈の話し言葉の理解を評価する際のギャップを埋め、実際のeコマースシステムを開発するための実用的な基盤を提供します。
コードとベンチマークはhttps://github.com/yarayx/livelongbenchで入手できます。

要約(オリジナル)

Long-context understanding poses significant challenges in natural language processing, particularly for real-world dialogues characterized by speech-based elements, high redundancy, and uneven information density. Although large language models (LLMs) achieve impressive results on existing benchmarks, these datasets fail to reflect the complexities of such texts, limiting their applicability to practical scenarios. To bridge this gap, we construct the first spoken long-text dataset, derived from live streams, designed to reflect the redundancy-rich and conversational nature of real-world scenarios. We construct tasks in three categories: retrieval-dependent, reasoning-dependent, and hybrid. We then evaluate both popular LLMs and specialized methods to assess their ability to understand long-contexts in these tasks. Our results show that current methods exhibit strong task-specific preferences and perform poorly on highly redundant inputs, with no single method consistently outperforming others. We propose a new baseline that better handles redundancy in spoken text and achieves strong performance across tasks. Our findings highlight key limitations of current methods and suggest future directions for improving long-context understanding. Finally, our benchmark fills a gap in evaluating long-context spoken language understanding and provides a practical foundation for developing real-world e-commerce systems. The code and benchmark are available at https://github.com/Yarayx/livelongbench.

arxiv情報

著者 Yongxuan Wu,Runyu Chen,Peiyu Liu,Hongjin Qian
発行日 2025-04-24 08:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams はコメントを受け付けていません

OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure

要約

オートレーフレフな言語モデルは、さまざまなシナリオで優れたパフォーマンスを示しています。
ただし、推論効率は、モデルがますます大きくなるにつれて最近の差し迫った問題となっている1段階の1つの単語生成モードによって制限されています。
投機的デコードは、「ドラフト」を採用し、次にメカニズムを検証して、複数のトークンを1つのステップで生成できるようにし、ロスレスの加速を実現します。
既存の方法は、主に固定されたヒューリスティックドラフト構造を採用していますが、これはさまざまな状況に適応して、検証中に受け入れ長を最大化することができません。
このジレンマを緩和するために、適応性のあるスケーラブルなドラフトツリーを構築するアルゴリズムであるOpt-Treeを提案しました。
各デコードステップでの受容長の数学的期待を最大化する最適なツリー構造を検索します。
実験結果は、オプトツリーが既存のドラフト構造を上回り、自己回帰デコードと比較して最大3.2のスピードアップ比を達成することを明らかにしています。
ドラフトモデルが十分に強力で、ノードの予算で十分である場合、単一のステップで10を超えるトークンを生成できます。
私たちのコードは、https://github.com/jikai0wang/opt-treeで入手できます。

要約(オリジナル)

Autoregressive language models demonstrate excellent performance in various scenarios. However, the inference efficiency is limited by its one-step-one-word generation mode, which has become a pressing problem recently as the models become increasingly larger. Speculative decoding employs a ‘draft and then verify’ mechanism to allow multiple tokens to be generated in one step, realizing lossless acceleration. Existing methods mainly adopt fixed heuristic draft structures, which fail to adapt to different situations to maximize the acceptance length during verification. To alleviate this dilemma, we proposed OPT-Tree, an algorithm to construct adaptive and scalable draft trees. It searches the optimal tree structure that maximizes the mathematical expectation of the acceptance length in each decoding step. Experimental results reveal that OPT-Tree outperforms the existing draft structures and achieves a speed-up ratio of up to 3.2 compared with autoregressive decoding. If the draft model is powerful enough and the node budget is sufficient, it can generate more than ten tokens in a single step. Our code is available at https://github.com/Jikai0Wang/OPT-Tree.

arxiv情報

著者 Jikai Wang,Yi Su,Juntao Li,Qingrong Xia,Zi Ye,Xinyu Duan,Zhefeng Wang,Min Zhang
発行日 2025-04-24 08:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure はコメントを受け付けていません