Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison

要約

NLPタスクでの大規模な言語モデル(LLMS)の顕著な成功に続いて、最も一般的なコミュニケーション形式である音声に能力を拡大することに関心が高まっています。
LLMSにスピーチを統合するための最も広範なアプローチは、予測される音声表現をテキスト表現にプレップし、音声エンコーダーでエンドツーエンドのトレーニングを可能にする密な機能(DFP)です。
これにより、DFP用の洗練された音声エンコーダーの必要性と、そのパフォーマンスが標準のエンコーダデコーダー(つまり、相互出席)アーキテクチャとどのように比較されるかについての疑問が提起されます。
CTC圧縮、シーケンスレベルの知識の蒸留、単一言語、バイリンガル、多言語モデルなど、さまざまな構成の下でDFPと相互参加を比較します。
制御されたアーキテクチャの比較を実行するために、すべてのモデルを大規模な前提型モデルを使用するのではなく、ゼロからトレーニングし、同等のデータとパラメーター設定を使用するのではなく、Must-C v1.0およびon Must-C v1.0および翻訳(ST)をテストします。
covost2データセット。
DFPの幅広い採用にもかかわらず、我々の結果は、交差に関するDFPの明確な利点を示していません。

要約(オリジナル)

Following the remarkable success of Large Language Models (LLMs) in NLP tasks, there is increasing interest in extending their capabilities to speech — the most common form of communication. The most widespread approach to integrating speech into LLMs is dense feature prepending (DFP), which prepends the projected speech representations to the textual representations, allowing end-to-end training with a speech encoder. This raises questions about the need for a sophisticated speech encoder for DFP and how its performance compares with a standard encoder-decoder (i.e., cross-attention) architecture. We compare DFP and cross-attention under a variety of configurations, such as CTC compression, sequence-level knowledge distillation, on monolingual, bilingual, and multilingual models. To perform a controlled architectural comparison, we train all models from scratch rather than using large pretrained models and use comparable data and parameter settings, testing speech-to-text recognition (ASR) and translation (ST) on MuST-C v1.0 and CoVoST2 datasets. Despite the wide adoption of DFP, our results do not indicate a clear advantage of DFP over cross-attention.

arxiv情報

著者 Tsz Kin Lam,Marco Gaido,Sara Papi,Luisa Bentivogli,Barry Haddow
発行日 2025-02-05 16:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison はコメントを受け付けていません

Minerva: A Programmable Memory Test Benchmark for Language Models

要約

LLMベースのAIアシスタントは、メモリ(コンテキスト)をどの程度効果的に利用してさまざまなタスクを実行できますか?
しばしば手動で作られている従来のデータベンチマークは、いくつかの制限に苦しんでいます。それらは静的で、過剰適合の影響を受けやすく、解釈が困難であり、実用的な洞察を欠いています。
このペーパーでは、モデルのメモリを効果的に使用する能力を評価するための包括的なテストセットを自動的に生成するためのフレームワークを提示します。
私たちのフレームワークは、一般的に検討されている(PassKey、Key-Value、Haystackの針)検索を超えて、能力テストの範囲を拡張します。これは、文献の支配的な焦点です。
具体的には、検索、リコール、編集、マッチング、コンテキストメモリ内の情報の比較、入力が異なるブロックに構造化されたときに基本操作の実行などの原子タスクのモデルを評価し、実際のデータをシミュレートします。
さらに、複合テストを設計して、メモリ上で動作しながら状態を維持するモデルの能力を調査します。
当社のベンチマークにより、LLMSのメモリ能力の解釈可能で詳細な評価が可能になります。

要約(オリジナル)

How effectively can LLM-based AI assistants utilize their memory (context) to perform various tasks? Traditional data benchmarks, which are often manually crafted, suffer from several limitations: they are static, susceptible to overfitting, difficult to interpret, and lack actionable insights–failing to pinpoint the specific capabilities a model lacks when it does not pass a test. In this paper, we present a framework for automatically generating a comprehensive set of tests to evaluate models’ abilities to use their memory effectively. Our framework extends the range of capability tests beyond the commonly explored (passkey, key-value, needle in the haystack) search, a dominant focus in the literature. Specifically, we evaluate models on atomic tasks such as searching, recalling, editing, matching, comparing information in context memory, and performing basic operations when inputs are structured into distinct blocks, simulating real-world data. Additionally, we design composite tests to investigate the models’ ability to maintain state while operating on memory. Our benchmark enables an interpretable, detailed assessment of memory capabilities of LLMs.

arxiv情報

著者 Menglin Xia,Victor Ruehle,Saravan Rajmohan,Reza Shokri
発行日 2025-02-05 16:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Minerva: A Programmable Memory Test Benchmark for Language Models はコメントを受け付けていません

Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation

要約

マルチモーダルの知識を大規模な言語モデル(LLMS)に統合することは、対話生成能力の大幅な進歩を表しています。
ただし、ゼロリソースシナリオにそのような知識を効果的に組み込むことは、多様で高品質のダイアログデータセットが不足しているため、依然として大きな課題です。
これに対処するために、暗黙のマルチモーダル知識を活用することにより、ゼロリソースのコンテキストでの豊かな対話生成のためのLLMを強化することを目的とした革新的なアプローチである視覚的暗黙の知識蒸留フレームワーク(VIKDF)を提案します。
VIKDFは、2つの主要な段階で構成されています。知識の蒸留、暗黙のクエリトランスを使用して、画像テキストペアから視覚的暗黙の知識を知識ベクトルに抽出およびエンコードします。
そして、これらの蒸留ベクトルをLLMにシームレスに統合するために、新しい双方向の変動情報融合技術を採用している知識統合。
これにより、LLMは一貫性があり魅力的であるだけでなく、暗黙のマルチモーダルキューを通じてコン​​テキストの深い理解を示すダイアログを生成し、ゼロリソースシナリオの制限を効果的に克服することができます。
2つのダイアログデータセットでの広範な実験は、VIKDFが高品質のダイアログを生成する際に既存の最先端モデルを上回ることを示しています。
このコードは、https://github.com/zhangbo-nlp/vikdfで入手できます。

要約(オリジナル)

Integrating multimodal knowledge into large language models (LLMs) represents a significant advancement in dialogue generation capabilities. However, the effective incorporation of such knowledge in zero-resource scenarios remains a substantial challenge due to the scarcity of diverse, high-quality dialogue datasets. To address this, we propose the Visual Implicit Knowledge Distillation Framework (VIKDF), an innovative approach aimed at enhancing LLMs for enriched dialogue generation in zero-resource contexts by leveraging implicit multimodal knowledge. VIKDF comprises two main stages: knowledge distillation, using an Implicit Query Transformer to extract and encode visual implicit knowledge from image-text pairs into knowledge vectors; and knowledge integration, employing a novel Bidirectional Variational Information Fusion technique to seamlessly integrate these distilled vectors into LLMs. This enables the LLMs to generate dialogues that are not only coherent and engaging but also exhibit a deep understanding of the context through implicit multimodal cues, effectively overcoming the limitations of zero-resource scenarios. Our extensive experimentation across two dialogue datasets shows that VIKDF outperforms existing state-of-the-art models in generating high-quality dialogues. The code is available at https://github.com/zhangbo-nlp/VIKDF.

arxiv情報

著者 Bo Zhang,Hui Ma,Jian Ding,Jian Wang,Bo Xu,Hongfei Lin
発行日 2025-02-05 16:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation はコメントを受け付けていません

Demystifying Long Chain-of-Thought Reasoning in LLMs

要約

スケーリング推論の計算により、大きな言語モデル(LLMS)の推論が強化され、長い考え方(COTS)がバックトラッキングやエラー修正などの戦略を可能にします。
Rehnection Learning(RL)は、これらの機能を開発するための重要な方法として浮上していますが、長いCOTが出現する条件は不明のままであり、RLトレーニングには慎重な設計の選択が必要です。
この研究では、長いCOT推論のメカニズムを体系的に調査し、モデルが長いCOT軌道を生成できるようにする重要な要因を特定します。
広範な監視された微調整(SFT)およびRL実験により、4つの主要な調査結果を提示します。(1)SFTは厳密に必要ではありませんが、トレーニングを簡素化し、効率を向上させます。
(2)推論能力は、トレーニング計算の増加に伴い出現する傾向がありますが、それらの開発は保証されておらず、COTの長さの成長を安定させるために報酬の形成が重要になります。
(3)RLにとって検証可能な報酬信号のスケーリングが重要です。
フィルタリングメカニズムを備えた騒々しい、Web抽出されたソリューションを活用することは、特にSTEM推論などの分散分布(OOD)タスクの強い可能性を示していることがわかります。
(4)エラー補正などのコア能力は基本モデルに本質的に存在しますが、RLを介した複雑なタスクのためにこれらのスキルを効果的に奨励するには、重要な計算が必要であり、それらの出現を測定するには微妙なアプローチが必要です。
これらの洞察は、LLMSの長いCOT推論を強化するためのトレーニング戦略を最適化するための実用的なガイダンスを提供します。
私たちのコードは、https://github.com/eddycmu/demystify-long-cotで入手できます。

要約(オリジナル)

Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

arxiv情報

著者 Edward Yeo,Yuxuan Tong,Morry Niu,Graham Neubig,Xiang Yue
発行日 2025-02-05 17:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Demystifying Long Chain-of-Thought Reasoning in LLMs はコメントを受け付けていません

Integrating automatic speech recognition into remote healthcare interpreting: A pilot study of its impact on interpreting quality

要約

このホワイトペーパーでは、リモートヘルスケア通訳設定における品質の解釈に対する自動音声認識(ASR)テクノロジーの影響を調査するパイロット研究の結果について報告します。
4つのランダム化された条件で被験者内実験設計を採用して、この研究では、スクリプト化された医療相談を利用して、対話解釈タスクをシミュレートします。
中国語と英語の言語の組み合わせを持つ4人の研修生通訳者が関与しています。
また、参加者の経験とASRサポートに対する経験と認識を、手がかりの遡及的レポートと半構造化されたインタビューを集めます。
予備データは、ASRの可用性、特に完全なASRトランスクリプトへのアクセスとASRに基づくChATGPT生成の要約へのアクセスにより、通訳の品質が効果的に改善されたことが示唆されています。
さまざまなタイプのASR出力は、エラータイプの解釈の分布に異なる影響を及ぼしました。
参加者は、このテクノロジーに関する同様のインタラクティブな経験を報告し、完全なASR転写産物に対する好みを表明しました。
このパイロット研究は、ASRを対話ベースのヘルスケア通訳に適用した奨励された結果を示しており、ASR出力を提示して通訳者のエクスペリエンスとパフォーマンスを向上させる最適な方法に関する洞察を提供します。
ただし、この研究の主な目的は方法論を検証することであり、これらの調査結果を確認するにはより大きなサンプルサイズのさらなる研究が必要であることが強調されるべきです。

要約(オリジナル)

This paper reports on the results from a pilot study investigating the impact of automatic speech recognition (ASR) technology on interpreting quality in remote healthcare interpreting settings. Employing a within-subjects experiment design with four randomised conditions, this study utilises scripted medical consultations to simulate dialogue interpreting tasks. It involves four trainee interpreters with a language combination of Chinese and English. It also gathers participants’ experience and perceptions of ASR support through cued retrospective reports and semi-structured interviews. Preliminary data suggest that the availability of ASR, specifically the access to full ASR transcripts and to ChatGPT-generated summaries based on ASR, effectively improved interpreting quality. Varying types of ASR output had different impacts on the distribution of interpreting error types. Participants reported similar interactive experiences with the technology, expressing their preference for full ASR transcripts. This pilot study shows encouraging results of applying ASR to dialogue-based healthcare interpreting and offers insights into the optimal ways to present ASR output to enhance interpreter experience and performance. However, it should be emphasised that the main purpose of this study was to validate the methodology and that further research with a larger sample size is necessary to confirm these findings.

arxiv情報

著者 Shiyi Tan,Constantin Orăsan,Sabine Braun
発行日 2025-02-05 17:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Integrating automatic speech recognition into remote healthcare interpreting: A pilot study of its impact on interpreting quality はコメントを受け付けていません

High-Fidelity Simultaneous Speech-To-Speech Translation

要約

同時音声翻訳のためのデコーダーのみのモデルであるHibikiを紹介します。
Hibikiは、マルチストリーム言語モデルを活用して、ソースとターゲットの音声を同期させ、テキストとオーディオトークンを共同で作成して、音声からテキストと音声までの翻訳を実行します。
さらに、同時解釈の基本的な課題に対処します。これは、ソース発話の終わりが翻訳を開始するのを待つ連続したカウンターパートとは異なり、リアルタイムで正しい翻訳を生成するのに十分なコンテキストを蓄積するためにその流れを適応させます。
かたまり。
そのために、既製のテキスト翻訳システムの困惑を活用して、単語ごとに最適な遅延を識別し、アラインドされた合成データを作成する弱く監視された方法を導入します。
監視されたトレーニングの後、ヒビキはバニラ温度サンプリングを使用した適応的で同時の音声翻訳を実行します。
フランス語と英語の同時の音声翻訳タスクでは、hibikiは翻訳品質、スピーカーの忠実度、自然さの最先端のパフォーマンスを示しています。
さらに、その推論プロセスのシンプルさにより、バッチングされた翻訳やリアルタイムのオンデバイス展開と互換性があります。
例とモデルと推論コードを提供します。

要約(オリジナル)

We introduce Hibiki, a decoder-only model for simultaneous speech translation. Hibiki leverages a multistream language model to synchronously process source and target speech, and jointly produces text and audio tokens to perform speech-to-text and speech-to-speech translation. We furthermore address the fundamental challenge of simultaneous interpretation, which unlike its consecutive counterpart, where one waits for the end of the source utterance to start translating, adapts its flow to accumulate just enough context to produce a correct translation in real-time, chunk by chunk. To do so, we introduce a weakly-supervised method that leverages the perplexity of an off-the-shelf text translation system to identify optimal delays on a per-word basis and create aligned synthetic data. After supervised training, Hibiki performs adaptive, simultaneous speech translation with vanilla temperature sampling. On a French-English simultaneous speech translation task, Hibiki demonstrates state-of-the-art performance in translation quality, speaker fidelity and naturalness. Moreover, the simplicity of its inference process makes it compatible with batched translation and even real-time on-device deployment. We provide examples as well as models and inference code.

arxiv情報

著者 Tom Labiausse,Laurent Mazaré,Edouard Grave,Patrick Pérez,Alexandre Défossez,Neil Zeghidour
発行日 2025-02-05 17:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | High-Fidelity Simultaneous Speech-To-Speech Translation はコメントを受け付けていません

Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation

要約

大規模な言語モデル(LLM)は強力な推論能力を示していますが、幻覚や時代遅れの知識などの制限に直面しています。
Knowledge Graph(kg)ベースの検索された生成(RAG)は、KGSからの構造化された外部知識のLLM出力を接地することにより、これらの問題に対処します。
ただし、現在のKGベースのRAGフレームワークは、検索の有効性と、LLMが消化するための適切な量の関連グラフ情報を特定する効率とのトレードオフを最適化するのに苦労しています。
サブグラフラグを紹介し、Subgraphsを取得し、LLMをレバレッジして推論および回答予測をレバレッジするKGベースのRAGフレームワークを拡張します。
私たちのアプローチは、軽量の多層パーセプトロンを革新的に統合し、効率的かつ柔軟なサブグラフ検索のための並列トリプルスコアリングメカニズムを統合し、検索の有効性を高めるための方向構造距離をエンコードします。
取得したサブグラフのサイズは、クエリのニーズと下流のLLMの機能に合わせて柔軟に調整できます。
この設計は、モデルの複雑さと推論力のバランスを取り、スケーラブルで一般化可能な検索プロセスを可能にします。
特に、検索されたサブグラフに基づいて、LLAMA3.1-8B-Instructのような小さなLLMSは説明可能な推論で競争力のある結果を提供しますが、GPT-4oのような大きなモデルは以前のベースラインと比較して最先端の精度を達成します。
-チューニング。
WebQSPおよびCWQベンチマークでの広範な評価は、幻覚を減らし、応答の接地を改善することにより、効率、精度、および信頼性におけるサブグラフラグの強さを強調しています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate strong reasoning abilities but face limitations such as hallucinations and outdated knowledge. Knowledge Graph (KG)-based Retrieval-Augmented Generation (RAG) addresses these issues by grounding LLM outputs in structured external knowledge from KGs. However, current KG-based RAG frameworks still struggle to optimize the trade-off between retrieval effectiveness and efficiency in identifying a suitable amount of relevant graph information for the LLM to digest. We introduce SubgraphRAG, extending the KG-based RAG framework that retrieves subgraphs and leverages LLMs for reasoning and answer prediction. Our approach innovatively integrates a lightweight multilayer perceptron with a parallel triple-scoring mechanism for efficient and flexible subgraph retrieval while encoding directional structural distances to enhance retrieval effectiveness. The size of retrieved subgraphs can be flexibly adjusted to match the query’s need and the downstream LLM’s capabilities. This design strikes a balance between model complexity and reasoning power, enabling scalable and generalizable retrieval processes. Notably, based on our retrieved subgraphs, smaller LLMs like Llama3.1-8B-Instruct deliver competitive results with explainable reasoning, while larger models like GPT-4o achieve state-of-the-art accuracy compared with previous baselines — all without fine-tuning. Extensive evaluations on the WebQSP and CWQ benchmarks highlight SubgraphRAG’s strengths in efficiency, accuracy, and reliability by reducing hallucinations and improving response grounding.

arxiv情報

著者 Mufei Li,Siqi Miao,Pan Li
発行日 2025-02-05 17:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation はコメントを受け付けていません

Think or Step-by-Step? UnZIPping the Black Box in Zero-Shot Prompts

要約

ゼロショットプロンプト技術により、大規模な言語モデル(LLMS)のパフォーマンスが大幅に向上しました。
ただし、ゼロショットプロンプトが非常に効果的である理由を明確に理解していません。
たとえば、プロンプトの「ステップバイステップ」で、「Think」または「段階的な」成功にとってより重要ですか?
勾配ベースのアプローチや注意ベースのアプローチなどの既存の解釈可能性方法は、計算的に集中的であり、オープンソースモデルに限定されています。
系統的入力ワード摂動に基づいて、オープンおよびクローズドソースモデルの両方に適用可能な多用途のメトリックであるZIPスコア(摂動スコアのゼロショットの重要性)を導入します。
最近の4つのLLMS、7つの広く使用されているプロンプト、およびいくつかのタスクにわたる実験は、単語の重要性の興味深いパターンを明らかにしています。
たとえば、「ステップバイステップ」と「Think」の両方が高いZIPスコアを示しますが、より影響力のあるZIPスコアはモデルとタスクに依存します。
制御された実験を使用して方法を検証し、結果を人間の判断と比較し、独自のモデルが単語の重要性に関する人間の直観とより密接に整合することを発見します。
これらの調査結果は、LLMの行動の理解を高め、より効果的なゼロショットプロンプトの開発とモデル分析の改善に貢献します。

要約(オリジナル)

Zero-shot prompting techniques have significantly improved the performance of Large Language Models (LLMs). However, we lack a clear understanding of why zero-shot prompts are so effective. For example, in the prompt ‘Let’s think step-by-step,’ is ‘think’ or ‘step-by-step’ more crucial to its success? Existing interpretability methods, such as gradient-based and attention-based approaches, are computationally intensive and restricted to open-source models. We introduce the ZIP score (Zero-shot Importance of Perturbation score), a versatile metric applicable to both open and closed-source models, based on systematic input word perturbations. Our experiments across four recent LLMs, seven widely-used prompts, and several tasks, reveal interesting patterns in word importance. For instance, while both ‘step-by-step’ and ‘think’ show high ZIP scores, which one is more influential depends on the model and task. We validate our method using controlled experiments and compare our results with human judgments, finding that proprietary models align more closely with human intuition regarding word significance. These findings enhance our understanding of LLM behavior and contribute to developing more effective zero-shot prompts and improved model analysis.

arxiv情報

著者 Nikta Gohari Sadr,Sangmitra Madhusudan,Ali Emami
発行日 2025-02-05 18:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Think or Step-by-Step? UnZIPping the Black Box in Zero-Shot Prompts はコメントを受け付けていません

Unanswerability Evaluation for Retrieval Augmented Generation

要約

検索された生成(RAG)システムの既存の評価フレームワークは、回答可能なクエリに焦点を当てていますが、適切に答えられない要求を拒否することの重要性を見落としています。
この論文では、RAGシステムが未回答のクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークであるUaeval4Ragを紹介します。
6つの未回答カテゴリの分類法を定義し、Uaeval4Ragは、未回答の比率と許容比率のメトリックを持つ特定の知識ベースの多様で挑戦的なクエリを自動的に合成します。
検索モデル、書き換え方法、再生者、言語モデル、促し戦略など、さまざまなRAGコンポーネントを使用して実験を行い、RAGシステムのパフォーマンスにおける隠れたトレードオフを明らかにします。
私たちの調査結果は、RAGシステムを最適化する際のコンポーネント選択と迅速な設計の重要な役割を強調しており、回答可能なクエリの精度と未回答の拒否率のバランスをとっています。
UAEVAL4RAGは、より堅牢で信頼性の高いRAGシステムを開発するための貴重な洞察とツールを提供します。

要約(オリジナル)

Existing evaluation frameworks for retrieval-augmented generation (RAG) systems focus on answerable queries, but they overlook the importance of appropriately rejecting unanswerable requests. In this paper, we introduce UAEval4RAG, a framework designed to evaluate whether RAG systems can handle unanswerable queries effectively. We define a taxonomy with six unanswerable categories, and UAEval4RAG automatically synthesizes diverse and challenging queries for any given knowledge base with unanswered ratio and acceptable ratio metrics. We conduct experiments with various RAG components, including retrieval models, rewriting methods, rerankers, language models, and prompting strategies, and reveal hidden trade-offs in performance of RAG systems. Our findings highlight the critical role of component selection and prompt design in optimizing RAG systems to balance the accuracy of answerable queries with high rejection rates of unanswerable ones. UAEval4RAG provides valuable insights and tools for developing more robust and reliable RAG systems.

arxiv情報

著者 Xiangyu Peng,Prafulla Kumar Choubey,Caiming Xiong,Chien-Sheng Wu
発行日 2025-02-05 18:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unanswerability Evaluation for Retrieval Augmented Generation はコメントを受け付けていません

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads

要約

コンテキストでトークンのサブセットに選択的に注意を払うまばらな注意は、効率的であると想定されていました。
ただし、フロップの理論的な減少は、フラッシュアットのようなハードウェアに認識された最適化がないため、密集した注意事項にわたって壁1杯のスピードアップに変換されることはめったにありません。
一方、まばらな注意がモデルの品質を今日の大規模な言語モデル(LLM)の規模で維持できるかどうかは不明のままです。
このホワイトペーパーでは、まばらなシェード(S2)の注意を紹介します。これは、ヘッドごととコンテキストごとのレベルの両方でカスタマイズ可能なスパース注意のカーネル最適化を提供するトリトンライブラリです。
S2アテンションにより、さまざまなモデルスケールでの広範なスパースアテンションデザインにわたる広範なアブレーションを通じて、斬新で高性能のまばらな注意技術の探索が可能になります。
これらの洞察から、私たちはいくつかの基本的なガイドラインを提示して、実用的な効率の改善だけでなく、下流のパフォーマンスも強力なものを達成できるまばらな注意を設計します。
高い並列化と最適化されたメモリIOを実現するには、まばらな注意は注意ヘッド全体でコンテキストを不均一に破壊する必要があります。そこでは、各ヘッドが完全なコンテキストをまとめてカバーしながら、トークンの異なるサブセットに注意してください。
一方、私たちは、実際には、まばらで密集した注意を組み合わせたハイブリッドアーキテクチャを見つけます。
S2アテンションは、8.79x、15.87x、25.3倍の壁1クロックスピードアップを達成し、強力なフラッシュアット2ベースラインと比較して、128kのコンテキスト長で完全な注意と完全な検索パフォーマンスを備えた強力なダウンストリームパフォーマンスを備えています。
推論では、7Bモデルの場合、S2アテンションカーネルの助けを借りて、私たちのモデルは、密集したカウンターパートと比較して4.5倍のスピードアップを達成します。
S2アテンションは、メガトロンとVLLMで直接使用するために、簡単に顧客化できるAPIでリリースされます。

要約(オリジナル)

Sparse attention, which selectively attends to a subset of tokens in the context was supposed to be efficient. However, its theoretical reduction in FLOPs has rarely translated into wall-clock speed-up over its dense attention counterparts due to the lack of hardware-aware optimizations like FlashAttention. Meanwhile, it remains unclear whether sparse attention can maintain the model’s quality at a scale of today’s large language models (LLMs) and how. This paper presents Sparsely-Sharded(S2) Attention, a Triton library that provides kernel optimization for sparse attention customizable at both per-head and per-context-range levels. S2-Attention enables the exploration of novel and high-performance sparse attention techniques, which we demonstrate through extensive ablations across a wide range of sparse attention designs at various model scales. From these insights, we present several basic guidelines to design sparse attention that can achieve not only practical efficiency improvements, but also strong downstream performance. To achieve high parallelization and optimized memory IO, sparse attention should shard the context heterogeneously across attention heads, where each head attends to a different subset of tokens while collectively covering the full context. Meanwhile, we find hybrid architectures combining sparse and dense attention particularly beneficial in practice. S2-Attention achieves wall-clock speedup of 8.79X, 15.87X, 25.3X compared to the strong FlashAttention-2 baseline with strong downstream performance on-par with full attention and perfect retrieval performance at a 128k context length. At inference, for 7B models, our model, with the help of our S2-Attention kernel, achieves 4.5x speed-up compared to dense counterparts. S2-Attention is released with easy-to-customize APIs for direct usage in Megatron and vLLM.

arxiv情報

著者 Xihui Lin,Yunan Zhang,Suyu Ge,Liliang Ren,Barun Patra,Vishrav Chaudhary,Hao Peng,Xia Song
発行日 2025-02-05 18:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | S2-Attention: Hardware-Aware Context Sharding Among Attention Heads はコメントを受け付けていません