General Uncertainty Estimation with Delta Variances

要約

意思決定者は、限られたデータによって引き起こされる不確実性に苦しむ可能性があります。
これは、認識論的な不確実性を考慮して緩和される可能性がありますが、これは大規模なニューラルネットワークの効率的な推定が困難です。
この程度まで、認識論的不確実性の定量化のためのアルゴリズムのファミリーであるデルタの分散を調査します。
ニューラルネットワークと、ニューラルネットワークで構成されるより一般的な機能に適用できます。
例として、ニューラルネットワークベースのステップ機能を備えた気象シミュレーターを内部に検討します。ここでは、デルタ変異は、単一の勾配計算のコストで競合結果を経験的に取得します。
このアプローチは、ニューラルネットワークアーキテクチャまたはトレーニング手順に変更を必要としないため、便利です。
特別なケースが一般的な手法を回復し、複数の関連方法に関する統一された視点を提示することに、理論的にはDelta分散を導き出す複数の方法について説明します。
最後に、この一般的な視点が自然な拡張を引き起こし、その利点を経験的に示していることを観察します。

要約(オリジナル)

Decision makers may suffer from uncertainty induced by limited data. This may be mitigated by accounting for epistemic uncertainty, which is however challenging to estimate efficiently for large neural networks. To this extent we investigate Delta Variances, a family of algorithms for epistemic uncertainty quantification, that is computationally efficient and convenient to implement. It can be applied to neural networks and more general functions composed of neural networks. As an example we consider a weather simulator with a neural-network-based step function inside — here Delta Variances empirically obtain competitive results at the cost of a single gradient computation. The approach is convenient as it requires no changes to the neural network architecture or training procedure. We discuss multiple ways to derive Delta Variances theoretically noting that special cases recover popular techniques and present a unified perspective on multiple related methods. Finally we observe that this general perspective gives rise to a natural extension and empirically show its benefit.

arxiv情報

著者 Simon Schmitt,John Shawe-Taylor,Hado van Hasselt
発行日 2025-02-20 16:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP, stat.ML | General Uncertainty Estimation with Delta Variances はコメントを受け付けていません

Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting

要約

時系列予測(TSF)はさまざまなドメインで重要なタスクですが、既存のTSFモデルは高品質のデータに大きく依存しており、利用可能なすべてのデータを不十分に活用しています。
このペーパーでは、本質的に候補データセットを構築することにより、再ラベル時系列データセットに対する新しい自己監視アプローチを探ります。
単純な再構成ネットワークの最適化中、中間体は自立したパラダイムの擬似ラベルとして使用され、あらゆる予測因子の一般化を改善します。
適応マスク(詐欺)を使用して自己修正を導入します。これは、過剰なコンポーネントを破棄し、再構築から生成された擬似ラベルに選択的に置き換えます。
さらに、Spectral Norm Remulization(SNR)を組み込んで、損失の状況の観点からの過剰フィットをさらに抑制します。
11の実世界のデータセットでの実験は、詐欺がさまざまなバックボーンモデルのパフォーマンスを一貫して改善することを示しています。
この作業は、データセットを構築し、自己監視学習を通じてTSFモデルの一般化を強化するという新しい視点を提供します。

要約(オリジナル)

Time Series Forecasting (TSF) is a crucial task in various domains, yet existing TSF models rely heavily on high-quality data and insufficiently exploit all available data. This paper explores a novel self-supervised approach to re-label time series datasets by inherently constructing candidate datasets. During the optimization of a simple reconstruction network, intermediates are used as pseudo labels in a self-supervised paradigm, improving generalization for any predictor. We introduce the Self-Correction with Adaptive Mask (SCAM), which discards overfitted components and selectively replaces them with pseudo labels generated from reconstructions. Additionally, we incorporate Spectral Norm Regularization (SNR) to further suppress overfitting from a loss landscape perspective. Our experiments on eleven real-world datasets demonstrate that SCAM consistently improves the performance of various backbone models. This work offers a new perspective on constructing datasets and enhancing the generalization of TSF models through self-supervised learning.

arxiv情報

著者 Yuxuan Yang,Dalin Zhang,Yuxuan Liang,Hua Lu,Huan Li,Gang Chen
発行日 2025-02-20 16:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting はコメントを受け付けていません

Building reliable sim driving agents by scaling self-play

要約

シミュレーションエージェントは、自律車両(AVS)などの人間と相互作用するシステムを設計およびテストするために不可欠です。
これらのエージェントは、AVパフォーマンスのベンチマークからシステムの制限へのストレステストまで、さまざまな目的を果たしますが、すべてのユースケースは重要な要件である信頼性を共有しています。
シミュレーションエージェントは、デザイナーが意図したとおりに動作し、分析の信号対雑音比を損なう可能性のある衝突のような意図しないアクションを最小限に抑える必要があります。
信頼性の高いSIMエージェントの基盤として、人間の知覚と制御に関する半現実的な制限の下で、WAYMOオープンモーションデータセットの数千のシナリオにスケーリング自己プレイを提案します。
単一のGPUでのゼロからのトレーニング、当社のエージェントは1日以内に完全なトレーニングセットをほぼ解決します。
彼らは、目に見えないテストシーンに効果的に一般化し、10,000の保有シナリオで0.8%未満の衝突およびオフロード事件で99.8%の目標完了率を達成します。
分配内の一般化を超えて、私たちのエージェントは分散型シーンに対する部分的な堅牢性を示し、そのような場合にほぼ完璧なパフォーマンスに達するために数分で微調整できます。
エージェントの行動のデモンストレーションは、このリンクで見つけることができます。
事前に訓練されたエージェントと完全なコードベースの両方をオープンソースします。
エージェントの動作のデモンストレーションは、\ url {https://sites.google.com/view/reliable-sim-agents}で見つけることができます。

要約(オリジナル)

Simulation agents are essential for designing and testing systems that interact with humans, such as autonomous vehicles (AVs). These agents serve various purposes, from benchmarking AV performance to stress-testing the system’s limits, but all use cases share a key requirement: reliability. A simulation agent should behave as intended by the designer, minimizing unintended actions like collisions that can compromise the signal-to-noise ratio of analyses. As a foundation for reliable sim agents, we propose scaling self-play to thousands of scenarios on the Waymo Open Motion Dataset under semi-realistic limits on human perception and control. Training from scratch on a single GPU, our agents nearly solve the full training set within a day. They generalize effectively to unseen test scenes, achieving a 99.8% goal completion rate with less than 0.8% combined collision and off-road incidents across 10,000 held-out scenarios. Beyond in-distribution generalization, our agents show partial robustness to out-of-distribution scenes and can be fine-tuned in minutes to reach near-perfect performance in those cases. Demonstrations of agent behaviors can be found at this link. We open-source both the pre-trained agents and the complete code base. Demonstrations of agent behaviors can be found at \url{https://sites.google.com/view/reliable-sim-agents}.

arxiv情報

著者 Daphne Cornelisse,Aarav Pandya,Kevin Joseph,Joseph Suárez,Eugene Vinitsky
発行日 2025-02-20 16:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Building reliable sim driving agents by scaling self-play はコメントを受け付けていません

Human Misperception of Generative-AI Alignment: A Laboratory Experiment

要約

私たちは、経済的意思決定の文脈において、生成的人工知能(GENAI)のアラインメントに対する人々の認識を研究するために、インセンティブ化された実験室実験を実施します。
リスク、時間の好み、社会的選好、戦略的相互作用の領域にまたがる経済問題のパネルを使用して、人間の被験者に自分自身のために選択を行い、人間のユーザーに代わってgenaiによって行われた選択を予測するよう求めます。
私たちは、人々がgenaiの選択と人間の選択の間の整合の程度を過大評価していることを発見しました。
すべての問題において、Genaiの選択に関する人間の被験者の平均予測は、Genaiの選択よりも平均的な人間被験者の選択にかなり近いものです。
個々のレベルでは、特定の問題におけるGenaiの選択に関するさまざまな被験者の予測は、同じ問題での独自の選択と非常に相関しています。
単純な理論モデルにおけるgenaiアライメントを過大評価している人々の意味を探ります。

要約(オリジナル)

We conduct an incentivized laboratory experiment to study people’s perception of generative artificial intelligence (GenAI) alignment in the context of economic decision-making. Using a panel of economic problems spanning the domains of risk, time preference, social preference, and strategic interactions, we ask human subjects to make choices for themselves and to predict the choices made by GenAI on behalf of a human user. We find that people overestimate the degree of alignment between GenAI’s choices and human choices. In every problem, human subjects’ average prediction about GenAI’s choice is substantially closer to the average human-subject choice than it is to the GenAI choice. At the individual level, different subjects’ predictions about GenAI’s choice in a given problem are highly correlated with their own choices in the same problem. We explore the implications of people overestimating GenAI alignment in a simple theoretical model.

arxiv情報

著者 Kevin He,Ran Shorrer,Mengjia Xia
発行日 2025-02-20 16:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, econ.TH | Human Misperception of Generative-AI Alignment: A Laboratory Experiment はコメントを受け付けていません

From Knowledge Generation to Knowledge Verification: Examining the BioMedical Generative Capabilities of ChatGPT

要約

LLMモデルの生成能力は、それが生み出す知識の信頼性に対するタスクと懸念を加速する機会を提示します。
懸念に対処するために、LLMモデルが生成するように促された生物医学的知識の事実上の正確性を体系的に評価する計算アプローチを提示します。
私たちのアプローチには、疾患中心の関連性の生成と、生物医学的オントロジーの意味知識を使用したそれらの検証という2つのプロセスが含まれます。
CHATGPTをSelect LLMモデルとして使用して、疾患、薬物、症状、遺伝子間のリンクを生成するために、評価の根拠を確立するための一連の迅速なエンジニアリングプロセスを設計しました。
実験結果は、疾患の条件(88%-97%)、薬物名(90%-91%)、および遺伝情報(88%-98%)を特定する際の高い精度を示しています。
症状の識別精度は、DOID、CHEBI、症状に対して検証され、それに応じてオントロジーにGOになるように、特に低く(49%-61%)。
協会の検証により、疾患薬物および疾患遺伝子協会の間での文献カバレッジ率(89%-91%)が明らかになりました。
症状用語の識別精度が低いことは、症状関連の関連性の検証にも貢献しました(49%-62%)。

要約(オリジナル)

The generative capabilities of LLM models present opportunities in accelerating tasks and concerns with the authenticity of the knowledge it produces. To address the concerns, we present a computational approach that systematically evaluates the factual accuracy of biomedical knowledge that an LLM model has been prompted to generate. Our approach encompasses two processes: the generation of disease-centric associations and the verification of them using the semantic knowledge of the biomedical ontologies. Using ChatGPT as the select LLM model, we designed a set of prompt-engineering processes to generate linkages between diseases, drugs, symptoms, and genes to establish grounds for assessments. Experimental results demonstrate high accuracy in identifying disease terms (88%-97%), drug names (90%-91%), and genetic information (88%-98%). The symptom term identification accuracy was notably lower (49%-61%), as verified against the DOID, ChEBI, SYMPTOM, and GO ontologies accordingly. The verification of associations reveals literature coverage rates of (89%-91%) among disease-drug and disease-gene associations. The low identification accuracy for symptom terms also contributed to the verification of symptom-related associations (49%-62%).

arxiv情報

著者 Ahmed Abdeen Hamed,Byung Suk Lee
発行日 2025-02-20 16:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, I.2 | From Knowledge Generation to Knowledge Verification: Examining the BioMedical Generative Capabilities of ChatGPT はコメントを受け付けていません

Reading between the Lines: Can LLMs Identify Cross-Cultural Communication Gaps?

要約

急速にグローバル化されたデジタルの世界では、多様な文化の人々によって作成された書籍や製品レビューなどのコンテンツは、世界の異なる角から他の人によって読まれ消費されます。
この論文では、別の文化のユーザーにとって異質な文化的に特有のアイテムと要素の存在により、書評の理解可能性におけるギャップの範囲とパターンを調査します。
Goodreadsの57冊の書籍レビューに関するユーザースタディは、レビューの83%が少なくとも1つの文化固有の理解が困難な要素を持っていたことを明らかにしています。
また、読者の文化的背景を考慮して、そのような項目を特定する際のGPT-4Oの有効性を評価します。
結果は混在しており、改善の重要な範囲を意味します。
データセットはこちらから入手できます:https://github.com/sougata-ub/reading_between_lines

要約(オリジナル)

In a rapidly globalizing and digital world, content such as book and product reviews created by people from diverse cultures are read and consumed by others from different corners of the world. In this paper, we investigate the extent and patterns of gaps in understandability of book reviews due to the presence of culturally-specific items and elements that might be alien to users from another culture. Our user-study on 57 book reviews from Goodreads reveal that 83\% of the reviews had at least one culture-specific difficult-to-understand element. We also evaluate the efficacy of GPT-4o in identifying such items, given the cultural background of the reader; the results are mixed, implying a significant scope for improvement. Our datasets are available here: https://github.com/sougata-ub/reading_between_lines

arxiv情報

著者 Sougata Saha,Saurabh Kumar Pandey,Harshit Gupta,Monojit Choudhury
発行日 2025-02-20 16:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Reading between the Lines: Can LLMs Identify Cross-Cultural Communication Gaps? はコメントを受け付けていません

Revealing the Relationship Between Publication Bias and Chemical Reactivity with Contrastive Learning

要約

合成方法の基質耐性と一般性は、しばしば「基質範囲」テーブルに紹介されます。
ただし、基質の選択では、頻繁に議論される出版物のバイアスが示されています。失敗した実験または低電力結果はめったに報告されません。
この作業では、新しいニューラルネットワークトレーニング戦略、基質範囲の対照学習を使用して、収量分布の単純な分析を超えて、このような出版バイアスと化学反応性との関係をより深く探求します。
報告された基質を陽性サンプルおよび非報告基質として負のサンプルとして扱うことにより、我々の対照学習戦略は、公開された基質範囲テーブルの履歴傾向に基づいて、数値埋め込み空間内でグループ分子をグループ化するモデルを教えます。
CASコンテンツコレクションでの20,798アリールハロゲン化のトレーニング$^{\ text {tm}} $、2010年から2015年までの数千の出版物に及ぶ、学習した埋め込みが、直感的な視覚化と量的定量の両方を通じて物理的有機反応性記述子との相関を示すことを実証します。
回帰分析。
さらに、これらの埋め込みは、収量予測や位置選択性予測などのさまざまな反応モデリングタスクに適用でき、履歴反応データをトレーニング前タスクとして使用する可能性を強調しています。
この作業は、化学固有の機械学習トレーニング戦略を提示して、文献データから新しい方法で学習するだけでなく、出版物の基質選択の傾向に反映される化学反応性の傾向を明らかにするユニークなアプローチを表しています。

要約(オリジナル)

A synthetic method’s substrate tolerance and generality are often showcased in a ‘substrate scope’ table. However, substrate selection exhibits a frequently discussed publication bias: unsuccessful experiments or low-yielding results are rarely reported. In this work, we explore more deeply the relationship between such publication bias and chemical reactivity beyond the simple analysis of yield distributions using a novel neural network training strategy, substrate scope contrastive learning. By treating reported substrates as positive samples and non-reported substrates as negative samples, our contrastive learning strategy teaches a model to group molecules within a numerical embedding space, based on historical trends in published substrate scope tables. Training on 20,798 aryl halides in the CAS Content Collection$^{\text{TM}}$, spanning thousands of publications from 2010-2015, we demonstrate that the learned embeddings exhibit a correlation with physical organic reactivity descriptors through both intuitive visualizations and quantitative regression analyses. Additionally, these embeddings are applicable to various reaction modeling tasks like yield prediction and regioselectivity prediction, underscoring the potential to use historical reaction data as a pre-training task. This work not only presents a chemistry-specific machine learning training strategy to learn from literature data in a new way, but also represents a unique approach to uncover trends in chemical reactivity reflected by trends in substrate selection in publications.

arxiv情報

著者 Wenhao Gao,Priyanka Raghavan,Ron Shprints,Connor W. Coley
発行日 2025-02-20 16:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph, q-bio.BM | Revealing the Relationship Between Publication Bias and Chemical Reactivity with Contrastive Learning はコメントを受け付けていません

Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics

要約

NASH平衡などのゲーム理論ソリューションの概念は、マルチプレイヤーゲームで安定した共同アクションを見つけるための鍵となっています。
ただし、エージェントの相互作用のダイナミクスは、戦略がほとんどない単純な2プレイヤーゲームでさえ、ナッシュ平衡に到達できず、複雑で予測不可能な行動を示すことができないことが示されています。
代わりに、進化的アプローチは、戦略の長期的な持続性を説明し、一時的なものを除外し、エージェントの相互作用の長期的なダイナミクスを説明します。
私たちの目標は、ダイナミックなゲームで、エージェントのペイオフを占めると同時に、変化に抵抗する安定した行動をもたらすエージェントの共同戦略を特定することです。
この目標に向けて、以前の結果に基づいて、このペーパーでは、エージェントのアクションではなくエージェントの戦略を考慮し、進化的方法論$ \ alpha $ -rankを適用して、戦略プロファイルを評価およびランク付けすることにより、動的ゲームを経験的形態に変換することを提案します。
彼らの長期的なダイナミクス。
この方法論により、エージェントの長期的な相互作用を通じて強力な共同戦略を特定できるだけでなく、これらの戦略の高いランキングに関する説明的で透明なフレームワークも提供します。
実験では、グラフの着色問題の確率的バージョンを共同で解決することを目的としたエージェントに関する報告があります。
DQNアルゴリズムを使用して、経験的ゲームを定義する戦略と、これらの戦略を実現するポリシーを訓練する戦略として、さまざまなスタイルを考慮します。
次に、シミュレーションを実行して、$ \ alpha $ -rankで必要なペイオフマトリックスを生成して、共同戦略をランク付けします。

要約(オリジナル)

Game-theoretic solution concepts, such as the Nash equilibrium, have been key to finding stable joint actions in multi-player games. However, it has been shown that the dynamics of agents’ interactions, even in simple two-player games with few strategies, are incapable of reaching Nash equilibria, exhibiting complex and unpredictable behavior. Instead, evolutionary approaches can describe the long-term persistence of strategies and filter out transient ones, accounting for the long-term dynamics of agents’ interactions. Our goal is to identify agents’ joint strategies that result in stable behavior, being resistant to changes, while also accounting for agents’ payoffs, in dynamic games. Towards this goal, and building on previous results, this paper proposes transforming dynamic games into their empirical forms by considering agents’ strategies instead of agents’ actions, and applying the evolutionary methodology $\alpha$-Rank to evaluate and rank strategy profiles according to their long-term dynamics. This methodology not only allows us to identify joint strategies that are strong through agents’ long-term interactions, but also provides a descriptive, transparent framework regarding the high ranking of these strategies. Experiments report on agents that aim to collaboratively solve a stochastic version of the graph coloring problem. We consider different styles of play as strategies to define the empirical game, and train policies realizing these strategies, using the DQN algorithm. Then we run simulations to generate the payoff matrix required by $\alpha$-Rank to rank joint strategies.

arxiv情報

著者 Natalia Koliou,George Vouros
発行日 2025-02-20 16:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics はコメントを受け付けていません

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

要約

大規模な言語およびコンピュータービジョンモデルにおけるコンテキスト学習パラダイムの成功に続いて、コンテキスト内の補強学習の最近新たな分野は急速に成長しています。
ただし、すべての実験は単純な環境と小規模データセットで実施されているため、その開発は挑戦的なベンチマークの欠如によって抑制されています。
この問題を軽減するための最初のステップとして、Xland-minigrid環境に基づいたコンテキスト内の補強学習のための大規模なデータセットであるXland-100Bを提示します。
これには、100ドルの$ $ Bの移行と2.5bのエピソードをカバーする、ほぼ30,000ドルの異なるタスクの完全な学習履歴が含まれています。
データセットを収集するのに50,000 GPU時間がかかりました。これは、ほとんどの学術ラボの範囲を超えています。
データセットに加えて、ユーティリティを提供して、さらに拡張します。
また、一般的なコンテキスト内のRLベースラインをベンチマークし、斬新で多様なタスクに一般化するのに苦労していることを示しています。
この実質的な努力により、私たちは、コンテキスト内の補強学習の急速に成長している分野での研究を民主化し、さらなるスケーリングのための強固な基盤を提供することを目指しています。

要約(オリジナル)

Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly $30,000$ different tasks, covering $100$B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. We also benchmark common in-context RL baselines and show that they struggle to generalize to novel and diverse tasks. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling.

arxiv情報

著者 Alexander Nikulin,Ilya Zisman,Alexey Zemtsov,Vladislav Kurenkov
発行日 2025-02-20 16:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning はコメントを受け付けていません

WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models

要約

検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合できるように力を与える能力により、広範囲にわたる採用を獲得しています。
ただし、既存のRAGフレームワークは主にテキストベースのLLM向けに設計されており、自動音声認識に依存して音声入力を処理します。これは、重要なオーディオ情報を破棄し、転写エラーをリスクリスクし、計算オーバーヘッドを増加させます。
したがって、ネイティブのエンドツーエンドのオーディオサポートを使用した最初の検索拡張生成フレームワークであるWavragを紹介します。
Wavragは2つの重要な機能を提供します。1)ASRのバイパス、Wavragは埋め込みと検索の両方でRAWオーディオを直接処理します。
2)WAVRAGは、オーディオとテキストを統合された知識表現に統合します。
具体的には、Wavretrieverを提案して、テキストオーディオハイブリッドナレッジベースからの検索を促進し、考え方の推論の統合を通じて話し言葉モデルのコンテキスト内機能をさらに強化します。
最先端のASRテキストRAGパイプラインと比較して、Wavragは10倍の加速を提供しながら、同等の検索パフォーマンスを実現します。
さらに、Wavragのユニークなテキストオーディオハイブリッド検索機能は、Ragの境界をオーディオモダリティに拡張します。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has gained widespread adoption owing to its capacity to empower large language models (LLMs) to integrate external knowledge. However, existing RAG frameworks are primarily designed for text-based LLMs and rely on Automatic Speech Recognition to process speech input, which discards crucial audio information, risks transcription errors, and increases computational overhead. Therefore, we introduce WavRAG, the first retrieval augmented generation framework with native, end-to-end audio support. WavRAG offers two key features: 1) Bypassing ASR, WavRAG directly processes raw audio for both embedding and retrieval. 2) WavRAG integrates audio and text into a unified knowledge representation. Specifically, we propose the WavRetriever to facilitate the retrieval from a text-audio hybrid knowledge base, and further enhance the in-context capabilities of spoken dialogue models through the integration of chain-of-thought reasoning. In comparison to state-of-the-art ASR-Text RAG pipelines, WavRAG achieves comparable retrieval performance while delivering a 10x acceleration. Furthermore, WavRAG’s unique text-audio hybrid retrieval capability extends the boundaries of RAG to the audio modality.

arxiv情報

著者 Yifu Chen,Shengpeng Ji,Haoxiao Wang,Ziqing Wang,Siyu Chen,Jinzheng He,Jin Xu,Zhou Zhao
発行日 2025-02-20 16:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models はコメントを受け付けていません