Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models

要約

精度を維持しながら、大規模な言語モデルを量子化するにはどうすればよいですか?
量子化は、大規模な言語モデル(LLM)を効率的に展開するために不可欠です。
バイナリコーディング量子化(BCQ)および均一な量子化(UQ)は、それぞれ強力な表現性と最適化を備えた有望な量子化スキームです。
ただし、どちらのスキームも両方の利点を活用していません。
この論文では、LLMSの正確な量子化方法であるUniquanf(柔軟なマッピングを備えた統一量子化)を提案します。
Uniquanfは、UQの柔軟なマッピング技術とBCQの不均一な量子化レベルを統合することにより、強力な表現性と最適化の両方を活用しています。
Uniquanfのパラメーターを正確に最適化するために、統一された初期化とローカルおよび定期的なマッピング手法を提案します。
最適化後、統一定理は計算とメモリのオーバーヘッドを削除し、統一によって誘導される追加の展開コストなしにUniquanfの優れた精度を利用することができます。
実験結果は、Uniquanfが既存のUQおよびBCQメソッドよりも優れており、GSM8Kベンチマークで最大4.60%高い精度を達成することを示しています。

要約(オリジナル)

How can we quantize large language models while preserving accuracy? Quantization is essential for deploying large language models (LLMs) efficiently. Binary-coding quantization (BCQ) and uniform quantization (UQ) are promising quantization schemes that have strong expressiveness and optimizability, respectively. However, neither scheme leverages both advantages. In this paper, we propose UniQuanF (Unified Quantization with Flexible Mapping), an accurate quantization method for LLMs. UniQuanF harnesses both strong expressiveness and optimizability by unifying the flexible mapping technique in UQ and non-uniform quantization levels of BCQ. We propose unified initialization, and local and periodic mapping techniques to optimize the parameters in UniQuanF precisely. After optimization, our unification theorem removes computational and memory overhead, allowing us to utilize the superior accuracy of UniQuanF without extra deployment costs induced by the unification. Experimental results demonstrate that UniQuanF outperforms existing UQ and BCQ methods, achieving up to 4.60% higher accuracy on GSM8K benchmark.

arxiv情報

著者 Seungcheol Park,Jeongin Bae,Beomseok Kwon,Minjun Kim,Byeongwook Kim,Se Jung Kwon,U Kang,Dongsoo Lee
発行日 2025-06-16 16:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 | Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models はコメントを受け付けていません

Turning Down the Heat: A Critical Analysis of Min-p Sampling in Language Models

要約

言語モデルからのサンプリングは、出力の品質と多様性に影響を与え、研究と現実世界のアプリケーションの両方に影響します。
最近、Nguyen et al。
2024年の「ヒートの電源:クリエイティブおよびコヒーレントLLM出力のためのMIN-Pサンプリング」は、MIN-Pと呼ばれる新しいサンプラーを導入し、基本、TOP-K、TOP-Pサンプリングなどの確立されたサンプラーよりも優れた品質と多様性を達成すると主張しています。
これらの主張の重要性は、ICLR 2025への18番目に高いスコアリングの提出および口頭発表の選択としての論文の認識によって強調されました。
この論文は、MIN-Pを支持する証拠の包括的な再審査を実施し、元の論文の4つの証拠から異なる結論に達します。
まず、元の論文の人間の評価では、データが省略され、統計テストが誤って実施され、不正確に定性的フィードバックが説明されています。
私たちの再分析は、MIN-Pが品質、多様性、または品質と多様性のトレードオフのベースラインよりも優れていなかったことを示しています。
私たちの調査結果に応えて、元の論文の著者は、それにもかかわらず、MIN-Pがベースラインよりも改善しないさらなる証拠を提供する、異なる実装、タスク、およびルーブリックを使用して新しい人間の評価を実施しました。
第二に、元の論文のNLPベンチマークを包括的にスイープすると、HyperParametersの数を制御する際にMIN-Pがベースラインを上回らないことが明らかになります。
第三に、元の論文のLLM-As-a-Judgeの評価には、方法論的な明確性がなく、一貫性のない報告が報告されているように見えます。
第4に、コミュニティの採用請求(49kのGithubリポジトリ、1.1m Github星)が根拠のないことがわかったため、それらの除去につながりました。
改訂された養子縁組請求は誤解を招く依然として。
元の論文で提示された証拠は、MIN-Pが品質、多様性、または品質と多様性のトレードオフを改善するという主張を支持していないと結論付けています。

要約(オリジナル)

Sampling from language models impacts the quality and diversity of outputs, affecting both research and real-world applications. Recently, Nguyen et al. 2024’s ‘Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs’ introduced a new sampler called min-p, claiming it achieves superior quality and diversity over established samplers such as basic, top-k, and top-p sampling. The significance of these claims was underscored by the paper’s recognition as the 18th highest-scoring submission to ICLR 2025 and selection for an Oral presentation. This paper conducts a comprehensive re-examination of the evidence supporting min-p and reaches different conclusions from the original paper’s four lines of evidence. First, the original paper’s human evaluations omitted data, conducted statistical tests incorrectly, and described qualitative feedback inaccurately; our reanalysis demonstrates min-p did not outperform baselines in quality, diversity, or a trade-off between quality and diversity; in response to our findings, the authors of the original paper conducted a new human evaluation using a different implementation, task, and rubric that nevertheless provides further evidence min-p does not improve over baselines. Second, comprehensively sweeping the original paper’s NLP benchmarks reveals min-p does not surpass baselines when controlling for the number of hyperparameters. Third, the original paper’s LLM-as-a-Judge evaluations lack methodological clarity and appear inconsistently reported. Fourth, community adoption claims (49k GitHub repositories, 1.1M GitHub stars) were found to be unsubstantiated, leading to their removal; the revised adoption claim remains misleading. We conclude that evidence presented in the original paper fails to support claims that min-p improves quality, diversity, or a trade-off between quality and diversity.

arxiv情報

著者 Rylan Schaeffer,Joshua Kazdan,Yegor Denisov-Blanch
発行日 2025-06-16 16:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Turning Down the Heat: A Critical Analysis of Min-p Sampling in Language Models はコメントを受け付けていません

Efficient Inference for Large Reasoning Models: A Survey

要約

大きな推論モデル(LRMS)は、推論を学ぶことにより、大規模な言語モデル(LLM)の推論能力を大幅に改善し、複雑なタスク解決で有望なパフォーマンスを示します。
ただし、彼らの審議的推論プロセスは、トークンの使用、メモリ消費、および推論時間の非効率性につながります。
したがって、この調査では、LRMS専用に設計された効率的な推論方法のレビューを提供し、推論の質を維持しながらトークン非効率性の緩和に焦点を当てています。
まず、最近の方法を2つの主要なカテゴリにグループ化するために分類法を導入します。(a)明示的な推論構造を維持しながらトークンを減らす明示的なコンパクトチェーン(COT)、および(b)明示的なトークンの代わりに隠された表現内の推論ステップをコードする暗黙的な潜在的なCOT。
一方、私たちは彼らの長所と短所について説明します。
次に、パフォーマンスと効率の側面から既存の方法について経験的分析を実施します。
また、人間中心の制御可能な推論、解釈可能性と推論の効率性のトレードオフ、効率的な推論の安全性の確保、効率的な推論のより広範なアプリケーションなど、この分野で開かれた課題を提示します。
さらに、モデルのマージ、新しいアーキテクチャ、エージェントルーターなどの手法を介してLRMSの推論効率を高めるための重要な洞察を強調します。
この作品が貴重なガイドとして役立つことを願っています。研究者がこの活気に満ちたフィールド\ footnote {https://github.com/yueliu1999/awesome-efficience-inference-for-lrms}で課題を克服するのを支援します。

要約(オリジナル)

Large Reasoning Models (LRMs) significantly improve the reasoning ability of Large Language Models (LLMs) by learning to reason, exhibiting promising performance in complex task-solving. However, their deliberative reasoning process leads to inefficiencies in token usage, memory consumption, and inference time. Thus, this survey provides a review of efficient inference methods designed specifically for LRMs, focusing on mitigating token inefficiency while preserving the reasoning quality. First, we introduce a taxonomy to group the recent methods into two main categories: (a) explicit compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps within hidden representations instead of explicit tokens. Meanwhile, we discuss their strengths and weaknesses. Then, we conduct empirical analyses on existing methods from performance and efficiency aspects. Besides, we present open challenges in this field, including human-centric controllable reasoning, trade-off between interpretability and efficiency of reasoning, ensuring safety of efficient reasoning, and broader applications of efficient reasoning. In addition, we highlight key insights for enhancing LRMs’ inference efficiency via techniques such as model merging, new architectures, and agent routers. We hope this work serves as a valuable guide, helping researchers overcome challenges in this vibrant field\footnote{https://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs}.

arxiv情報

著者 Yue Liu,Jiaying Wu,Yufei He,Hongcheng Gao,Hongyu Chen,Baolong Bi,Ruihan Gong,Jiaheng Zhang,Zhiqi Huang,Bryan Hooi
発行日 2025-06-16 16:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Inference for Large Reasoning Models: A Survey はコメントを受け付けていません

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

要約

大規模な言語モデル(LLMS)は、特定のユーザーの次のWebアクションを正確にシミュレートできますか?
LLMは「信じられる」人間の行動を生成する際に有望な能力を示していますが、主に、観察可能なアクションと実際の人間ユーザーの内部推論の両方をキャプチャする高品質で公開されているデータセットがないため、実際のユーザーの行動を模倣する能力を評価する能力を評価することは、オープンな課題のままです。
このギャップに対処するために、オンラインショッピングセッション中に実際の人間の参加者から収集された観察、ペルソナ、根拠、およびアクションの新しいデータセットであるオペラを紹介します。
Operaは、ユーザーのペルソナ、ブラウザ観測、細かいWebアクション、および自己報告されたジャストインタイムの理論的根拠など、包括的にキャプチャする最初のパブリックデータセットです。
オンラインアンケートとカスタムブラウザプラグインの両方を開発して、このデータセットを高い忠実度で収集しました。
Operaを使用して、最初のベンチマークを確立して、現在のLLMが特定のユーザーの次のアクションと理論的根拠を特定のペルソナと<観察、アクション、根拠>履歴を使用して評価できるかを評価します。
このデータセットは、人間のパーソナライズされたデジタル双子として機能することを目的としたLLMエージェントの将来の研究の基礎を築きます。

要約(オリジナル)

Can large language models (LLMs) accurately simulate the next web action of a specific user? While LLMs have shown promising capabilities in generating “believable” human behaviors, evaluating their ability to mimic real user behaviors remains an open challenge, largely due to the lack of high-quality, publicly available datasets that capture both the observable actions and the internal reasoning of an actual human user. To address this gap, we introduce OPERA, a novel dataset of Observation, Persona, Rationale, and Action collected from real human participants during online shopping sessions. OPERA is the first public dataset that comprehensively captures: user personas, browser observations, fine-grained web actions, and self-reported just-in-time rationales. We developed both an online questionnaire and a custom browser plugin to gather this dataset with high fidelity. Using OPERA, we establish the first benchmark to evaluate how well current LLMs can predict a specific user’s next action and rationale with a given persona and history. This dataset lays the groundwork for future research into LLM agents that aim to act as personalized digital twins for human.

arxiv情報

著者 Ziyi Wang,Yuxuan Lu,Wenbo Li,Amirali Amini,Bo Sun,Yakov Bart,Weimin Lyu,Jiri Gesi,Tian Wang,Jing Huang,Yu Su,Upol Ehsan,Malihe Alikhani,Toby Jia-Jun Li,Lydia Chilton,Dakuo Wang
発行日 2025-06-16 17:32:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation はコメントを受け付けていません

LTRR: Learning To Rank Retrievers for LLMs

要約

検索された生成(RAG)システムは通常、すべてのクエリタイプで最適に実行される単一のレトリバーが最適に実行されないという証拠が増えているにもかかわらず、単一の固定レトリバーに依存しています。
このホワイトペーパーでは、クエリに基づいてレトリバーのプールから動的に選択するクエリルーティングアプローチを検討し、列車のないヒューリスティックと学習ルーティングモデルの両方を使用します。
ルーティングをランクの学習(LTR)問題としてフレーム化し、LTRRを導入します。LTRRは、予想されるユーティリティゲインでレトリバーをダウンストリームLLMパフォーマンスにランク付けすることを学ぶフレームワークです。
制御されたクエリタイプのバリエーションを使用して合成QAデータで実施された実験は、ルーティングベースのRAGシステムが最高のシングルリトリーバーベースのシステムよりも優れていることを示しています。
パフォーマンスの向上は、回答正確性(AC)メトリックと特にXGBoostでのペアワイズ学習アプローチで訓練されたモデルで特に顕著です。
また、分散除外クエリへの一般化の改善も観察されます。
Sigir 2025 Liverag Challengeの一環として、提出されたシステムは、私たちのアプローチの実用的な実行可能性を実証し、回答の正確性と忠実さの両方で競争力のあるパフォーマンスを達成しました。
これらの調査結果は、RAGシステムのクエリルーティングにおけるトレーニング方法とメトリック選択の両方の重要性を強調しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems typically rely on a single fixed retriever, despite growing evidence that no single retriever performs optimally across all query types. In this paper, we explore a query routing approach that dynamically selects from a pool of retrievers based on the query, using both train-free heuristics and learned routing models. We frame routing as a learning-to-rank (LTR) problem and introduce LTRR, a framework that learns to rank retrievers by their expected utility gain to downstream LLM performance. Our experiments, conducted on synthetic QA data with controlled query type variations, show that routing-based RAG systems can outperform the best single-retriever-based systems. Performance gains are especially pronounced in models trained with the Answer Correctness (AC) metric and with pairwise learning approaches, especially with XGBoost. We also observe improvements in generalization to out-of-distribution queries. As part of the SIGIR 2025 LiveRAG challenge, our submitted system demonstrated the practical viability of our approach, achieving competitive performance in both answer correctness and faithfulness. These findings highlight the importance of both training methodology and metric selection in query routing for RAG systems.

arxiv情報

著者 To Eun Kim,Fernando Diaz
発行日 2025-06-16 17:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | LTRR: Learning To Rank Retrievers for LLMs はコメントを受け付けていません

The Price of Freedom: Exploring Expressivity and Runtime Tradeoffs in Equivariant Tensor Products

要約

$ e(3)$ – 等変量ニューラルネットワークは、幅広い3Dモデリングタスクにわたって成功を示しています。
これらのネットワークの基本的な操作はテンソル製品です。テンソル製品は、2つの幾何学的特徴を等しく等しい方法で相互作用させて、新しい機能を作成します。
テンソル製品の計算の複雑さが高いため、この操作のランタイムを最適化するために多大な努力が投資されています。
たとえば、Luo et al。
(2024)最近、重要なスピードアップを約束するGaunt Tensor製品(GTP)を提案しました。
この作業では、多くのテンソル製品操作の慎重で体系的な分析を提供します。
特に、さまざまなテンソル製品が同じ操作を実行していないことを強調します。
報告されたスピードアップは通常、表現力を犠牲にして提供されます。
これらの違いを特徴付けるために、表現力と相互作用性の尺度を紹介します。
さらに、GTPの元の実装は、漸近ランタイムで無料で球形グリッドを直接使用することで大幅に簡素化できることを認識しました。
この球形グリッドアプローチは、ベンチマークでより速く、MACE間のポテンシャルの実際のトレーニングでは30 \%です。
最後に、さまざまなテンソル製品操作の最初の体系的な微生物を提供します。
理論的なランタイム保証は、経験的パフォーマンスとは大きく異なる可能性があり、慎重なアプリケーション固有のベンチマークの必要性を示していることがわかります。
コードは\ href {https://github.com/atomicarchitects/priceoffreedom} {https://github.com/atomicarchitects/priceoffreedom}で入手できます。

要約(オリジナル)

$E(3)$-equivariant neural networks have demonstrated success across a wide range of 3D modelling tasks. A fundamental operation in these networks is the tensor product, which interacts two geometric features in an equivariant manner to create new features. Due to the high computational complexity of the tensor product, significant effort has been invested to optimize the runtime of this operation. For example, Luo et al. (2024) recently proposed the Gaunt tensor product (GTP) which promises a significant speedup. In this work, we provide a careful, systematic analysis of a number of tensor product operations. In particular, we emphasize that different tensor products are not performing the same operation. The reported speedups typically come at the cost of expressivity. We introduce measures of expressivity and interactability to characterize these differences. In addition, we realized the original implementation of GTP can be greatly simplified by directly using a spherical grid at no cost in asymptotic runtime. This spherical grid approach is faster on our benchmarks and in actual training of the MACE interatomic potential by 30\%. Finally, we provide the first systematic microbenchmarks of the various tensor product operations. We find that the theoretical runtime guarantees can differ wildly from empirical performance, demonstrating the need for careful application-specific benchmarking. Code is available at \href{https://github.com/atomicarchitects/PriceofFreedom}{https://github.com/atomicarchitects/PriceofFreedom}

arxiv情報

著者 YuQing Xie,Ameya Daigavane,Mit Kotak,Tess Smidt
発行日 2025-06-16 14:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | The Price of Freedom: Exploring Expressivity and Runtime Tradeoffs in Equivariant Tensor Products はコメントを受け付けていません

Affordable AI Assistants with Knowledge Graph of Thoughts

要約

大規模な言語モデル(LLM)は、ドメイン間で多様なタスクを実行できるAIアシスタントの開発に革命をもたらしています。
ただし、現在の最先端のLLM主導のエージェントは、Gaiaのような複雑なベンチマークでの高い運用コストや限られた成功率など、重大な課題に直面しています。
これらの問題に対処するために、LLMの推論を動的に構築された知識グラフ(KG)と統合する革新的なAIアシスタントアーキテクチャである思考の知識グラフ(KGOT)を提案します。
KGOTは、数学ソルバー、Webクローラー、Pythonスクリプトなどの外部ツールを介して繰り返し強化された動的なKG表現にタスク関連の知識を抽出および構造化します。
タスク関連の知識のこのような構造化された表現により、低コストのモデルは複雑なタスクを効果的に解決しながら、バイアスとノイズを最小限に抑えることができます。
たとえば、KGOTは、GPT-4o Miniを使用してフェイスエージェントを抱き締めるのと比較して、Gaiaベンチマークでタスクの成功率を29%改善しています。
さらに、小規模なモデルを利用すると、GPT-4oと比較して運用コストが36倍以上削減されます。
他のモデル(QWEN2.5-32BおよびDeepSeek-R1-70Bなど)およびベンチマーク(SimpleQAなど)の改善は似ています。
KGOTは、AIアシスタント向けにスケーラブルで手頃な価格の多用途で高性能なソリューションを提供します。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing the development of AI assistants capable of performing diverse tasks across domains. However, current state-of-the-art LLM-driven agents face significant challenges, including high operational costs and limited success rates on complex benchmarks like GAIA. To address these issues, we propose Knowledge Graph of Thoughts (KGoT), an innovative AI assistant architecture that integrates LLM reasoning with dynamically constructed knowledge graphs (KGs). KGoT extracts and structures task-relevant knowledge into a dynamic KG representation, iteratively enhanced through external tools such as math solvers, web crawlers, and Python scripts. Such structured representation of task-relevant knowledge enables low-cost models to solve complex tasks effectively while also minimizing bias and noise. For example, KGoT achieves a 29% improvement in task success rates on the GAIA benchmark compared to Hugging Face Agents with GPT-4o mini. Moreover, harnessing a smaller model dramatically reduces operational costs by over 36x compared to GPT-4o. Improvements for other models (e.g., Qwen2.5-32B and Deepseek-R1-70B) and benchmarks (e.g., SimpleQA) are similar. KGoT offers a scalable, affordable, versatile, and high-performing solution for AI assistants.

arxiv情報

著者 Maciej Besta,Lorenzo Paleari,Jia Hao Andrea Jiang,Robert Gerstenberger,You Wu,Jón Gunnar Hannesson,Patrick Iff,Ales Kubicek,Piotr Nyczyk,Diana Khimey,Nils Blach,Haiqiang Zhang,Tao Zhang,Peiran Ma,Grzegorz Kwaśniewski,Marcin Copik,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-06-16 14:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Affordable AI Assistants with Knowledge Graph of Thoughts はコメントを受け付けていません

Seismic Acoustic Impedance Inversion Framework Based on Conditional Latent Generative Diffusion Model

要約

地震音響インピーダンスは、岩石学的識別と地下構造の解釈において重要な役割を果たします。
ただし、反転問題の本質的に不適切な性質のため、ポストスタックの地震データからのインピーダンスを直接推定することは非常に困難なままです。
最近、拡散モデルは、強力な事前の学習と生成能力のために、このような逆問題に対処する上で大きな可能性を示しています。
それにもかかわらず、ほとんどの既存の方法はピクセルドメインで動作し、複数の反復が必要であり、フィールドデータへの適用性を制限します。
これらの制限を軽減するために、潜在的な潜在的な生成拡散モデルに基づいて、潜在的な潜在的な生成拡散モデルに基づいて、新しい地震音響インピーダンス反転フレームワークを提案します。
条件付き入力を埋め込むときに追加のトレーニングオーバーヘッドの導入を避けるために、軽量ウェーブレットベースのモジュールをフレームワークに設計して、地震データをプロジェクトし、インピーダンスでトレーニングされたエンコーダを再利用して、低頻度のインピーダンスを潜在空間に埋め込みます。
さらに、このフレームワークの反転プロセス中にモデル駆動型サンプリング戦略を提案して、精度を高め、必要な拡散ステップの数を減らすことを提案します。
合成モデルの数値実験は、提案された方法が、いくつかの拡散ステップのみで高い反転精度と強力な一般化能力を達成することを示しています。
さらに、フィールドデータへの適用により、地質学的な詳細が強化され、井戸の測定とのより高い一貫性が明らかになり、提案されたアプローチの有効性と実用性が検証されます。

要約(オリジナル)

Seismic acoustic impedance plays a crucial role in lithological identification and subsurface structure interpretation. However, due to the inherently ill-posed nature of the inversion problem, directly estimating impedance from post-stack seismic data remains highly challenging. Recently, diffusion models have shown great potential in addressing such inverse problems due to their strong prior learning and generative capabilities. Nevertheless, most existing methods operate in the pixel domain and require multiple iterations, limiting their applicability to field data. To alleviate these limitations, we propose a novel seismic acoustic impedance inversion framework based on a conditional latent generative diffusion model, where the inversion process is made in latent space. To avoid introducing additional training overhead when embedding conditional inputs, we design a lightweight wavelet-based module into the framework to project seismic data and reuse an encoder trained on impedance to embed low-frequency impedance into the latent space. Furthermore, we propose a model-driven sampling strategy during the inversion process of this framework to enhance accuracy and reduce the number of required diffusion steps. Numerical experiments on a synthetic model demonstrate that the proposed method achieves high inversion accuracy and strong generalization capability within only a few diffusion steps. Moreover, application to field data reveals enhanced geological detail and higher consistency with well-log measurements, validating the effectiveness and practicality of the proposed approach.

arxiv情報

著者 Jie Chen,Hongling Chen,Jinghuai Gao,Chuangji Meng,Tao Yang,XinXin Liang
発行日 2025-06-16 14:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Seismic Acoustic Impedance Inversion Framework Based on Conditional Latent Generative Diffusion Model はコメントを受け付けていません

Reference-Aligned Retrieval-Augmented Question Answering over Heterogeneous Proprietary Documents

要約

独自の企業文書には豊富なドメイン固有の知識が含まれていますが、従業員が必要なときに適切な情報にアクセスすることでも、圧倒的なボリュームと混乱した構造により、それらの圧倒的なボリュームと混乱した構造が困難になります。
たとえば、自動車産業では、車両の衝突衝突テストがそれぞれ数十万ドルの費用がかかり、非常に詳細な文書を作成します。
ただし、意思決定中に関連するコンテンツを取得することは、材料の規模と複雑さのために時間がかかり続けています。
検索された生成(RAG)ベースの質問応答(QA)システムは有望なソリューションを提供しますが、内部RAG-QAシステムの構築はいくつかの課題を提起します。
これらに対処するために、次のことで構成される内部エンタープライズの使用のためのRAG-QAフレームワークを提案します。(1)生のマルチモーダルドキュメントを構造化されたコーパスとQAペアに変換するデータパイプライン、(2)完全にオンプレミス、プライバシーを提供するアーキテクチャ、および(3)軽量の参照をサポートすることに応答することを示唆しています。
自動車ドメインに適用されるこのシステムは、人間とLLMの両方の裁判官からの1-5スケールの評価に基づいて、事実上の正確性(+1.79、+1.94)、情報性(+1.33、+1.16)、および非RAGベースラインにわたって有用性(+1.08、+1.67)を改善します。

要約(オリジナル)

Proprietary corporate documents contain rich domain-specific knowledge, but their overwhelming volume and disorganized structure make it difficult even for employees to access the right information when needed. For example, in the automotive industry, vehicle crash-collision tests, each costing hundreds of thousands of dollars, produce highly detailed documentation. However, retrieving relevant content during decision-making remains time-consuming due to the scale and complexity of the material. While Retrieval-Augmented Generation (RAG)-based Question Answering (QA) systems offer a promising solution, building an internal RAG-QA system poses several challenges: (1) handling heterogeneous multi-modal data sources, (2) preserving data confidentiality, and (3) enabling traceability between each piece of information in the generated answer and its original source document. To address these, we propose a RAG-QA framework for internal enterprise use, consisting of: (1) a data pipeline that converts raw multi-modal documents into a structured corpus and QA pairs, (2) a fully on-premise, privacy-preserving architecture, and (3) a lightweight reference matcher that links answer segments to supporting content. Applied to the automotive domain, our system improves factual correctness (+1.79, +1.94), informativeness (+1.33, +1.16), and helpfulness (+1.08, +1.67) over a non-RAG baseline, based on 1-5 scale ratings from both human and LLM judge.

arxiv情報

著者 Nayoung Choi,Grace Byun,Andrew Chung,Ellie S. Paek,Shinsun Lee,Jinho D. Choi
発行日 2025-06-16 14:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, H.3 | Reference-Aligned Retrieval-Augmented Question Answering over Heterogeneous Proprietary Documents はコメントを受け付けていません

Quantum computing and artificial intelligence: status and perspectives

要約

このホワイトペーパーでは、量子コンピューティングと人工知能(AI)の間の交差点のさまざまな点について説明し、探求します。
量子コンピューティングが革新的なAIソリューションの開発をどのようにサポートできるかを説明しています。
また、量子コンピューティングと量子センシングに焦点を当てて、量子技術の研究開発に力を与えることができる古典的なAIのユースケースを調べます。
このホワイトペーパーの目的は、AIと量子コンピューティングがどのように相互作用し、互いに利益をもたらすかについての基本的な質問に対処することを目的とした長期的な研究アジェンダを提供することです。
提案された理論的作業を調整し、量子AIの開発を量子ハードウェアロードマップに合わせ、古典的および量子リソースの両方を推定する方法など、一連の推奨事項と課題で終わります – 特にエネルギー消費を軽減および最適化することを目的として – この緊急ハイブリッドソフトウェアエンジニアリングの分野を促進し、ヨーロッパの産業的競争を強化します。

要約(オリジナル)

This white paper discusses and explores the various points of intersection between quantum computing and artificial intelligence (AI). It describes how quantum computing could support the development of innovative AI solutions. It also examines use cases of classical AI that can empower research and development in quantum technologies, with a focus on quantum computing and quantum sensing. The purpose of this white paper is to provide a long-term research agenda aimed at addressing foundational questions about how AI and quantum computing interact and benefit one another. It concludes with a set of recommendations and challenges, including how to orchestrate the proposed theoretical work, align quantum AI developments with quantum hardware roadmaps, estimate both classical and quantum resources – especially with the goal of mitigating and optimizing energy consumption – advance this emerging hybrid software engineering discipline, and enhance European industrial competitiveness while considering societal implications.

arxiv情報

著者 Giovanni Acampora,Andris Ambainis,Natalia Ares,Leonardo Banchi,Pallavi Bhardwaj,Daniele Binosi,G. Andrew D. Briggs,Tommaso Calarco,Vedran Dunjko,Jens Eisert,Olivier Ezratty,Paul Erker,Federico Fedele,Elies Gil-Fuster,Martin Gärttner,Mats Granath,Markus Heyl,Iordanis Kerenidis,Matthias Klusch,Anton Frisk Kockum,Richard Kueng,Mario Krenn,Jörg Lässig,Antonio Macaluso,Sabrina Maniscalco,Florian Marquardt,Kristel Michielsen,Gorka Muñoz-Gil,Daniel Müssig,Hendrik Poulsen Nautrup,Sophie A. Neubauer,Evert van Nieuwenburg,Roman Orus,Jörg Schmiedmayer,Markus Schmitt,Philipp Slusallek,Filippo Vicentini,Christof Weitenberg,Frank K. Wilhelm
発行日 2025-06-16 14:30:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph | Quantum computing and artificial intelligence: status and perspectives はコメントを受け付けていません