LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams

要約

長いコンテキストの理解は、特に音声ベースの要素、高い冗長性、および不均一な情報密度を特徴とする現実世界の対話について、自然言語処理に大きな課題をもたらします。
大規模な言語モデル(LLM)は既存のベンチマークで印象的な結果を達成しますが、これらのデータセットはそのようなテキストの複雑さを反映することができず、実際のシナリオへの適用性を制限します。
このギャップを埋めるために、実世界のシナリオの冗長性が豊富で会話的な性質を反映するように設計されたライブストリームから派生した最初の音声の長いテキストデータセットを構築します。
検索依存、推論依存、およびハイブリッドの3つのカテゴリでタスクを構築します。
次に、一般的なLLMと専門的な方法の両方を評価して、これらのタスクで長いコンテストを理解する能力を評価します。
私たちの結果は、現在の方法が強いタスク固有の好みを示し、非常に冗長な入力でパフォーマンスが低いことを示しています。
話し言葉の冗長性をより適切に処理し、タスク全体で強力なパフォーマンスを実現する新しいベースラインを提案します。
私たちの調査結果は、現在の方法の重要な制限を強調し、長期の理解を改善するための将来の方向性を示唆しています。
最後に、当社のベンチマークは、長い文脈の話し言葉の理解を評価する際のギャップを埋め、実際のeコマースシステムを開発するための実用的な基盤を提供します。
コードとベンチマークはhttps://github.com/yarayx/livelongbenchで入手できます。

要約(オリジナル)

Long-context understanding poses significant challenges in natural language processing, particularly for real-world dialogues characterized by speech-based elements, high redundancy, and uneven information density. Although large language models (LLMs) achieve impressive results on existing benchmarks, these datasets fail to reflect the complexities of such texts, limiting their applicability to practical scenarios. To bridge this gap, we construct the first spoken long-text dataset, derived from live streams, designed to reflect the redundancy-rich and conversational nature of real-world scenarios. We construct tasks in three categories: retrieval-dependent, reasoning-dependent, and hybrid. We then evaluate both popular LLMs and specialized methods to assess their ability to understand long-contexts in these tasks. Our results show that current methods exhibit strong task-specific preferences and perform poorly on highly redundant inputs, with no single method consistently outperforming others. We propose a new baseline that better handles redundancy in spoken text and achieves strong performance across tasks. Our findings highlight key limitations of current methods and suggest future directions for improving long-context understanding. Finally, our benchmark fills a gap in evaluating long-context spoken language understanding and provides a practical foundation for developing real-world e-commerce systems. The code and benchmark are available at https://github.com/Yarayx/livelongbench.

arxiv情報

著者 Yongxuan Wu,Runyu Chen,Peiyu Liu,Hongjin Qian
発行日 2025-04-24 08:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク