Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers

要約

この作業では、パス積分形式のフレームワーク内でコアメカニズムを再解釈することにより、トランスアルゴリズムの一般化された定式化を提示します。
この観点では、注意メカニズムは、将来のトークン状態につながる可能なすべての遷移パスを統合するプロセスとして再構築され、時間の進化はフィードフォワードネットワークによって支配されます。
トランスの各コンポーネントをパス積分定式化におけるその対応物に体系的にマッピングすることにより、よりコンパクトで効率的な表現を取得します。この表現では、シーケンスのコンテキスト情報がメモリのようなセグメントに凝縮されます。
これらのセグメントは、変圧器層全体で再発して処理され、より効果的な長期情報保持が可能になります。
PassKeyの検索タスクと要約タスクを通じてこのアプローチの有効性を検証し、提案された方法がシーケンスの長さで直線的にスケーリングするメモリ使用量を示しながら履歴情報を保持していることを示します。
これは、標準的な注意メカニズムで通常観察される非線形記憶成長とは対照的です。
この量子に触発されたトランスアーキテクチャの一般化により、将来の変圧器モデルの効率と表現力の両方を高めるための新しい道が開かれると予想されます。

要約(オリジナル)

In this work, we present a generalized formulation of the Transformer algorithm by reinterpreting its core mechanisms within the framework of Path Integral formalism. In this perspective, the attention mechanism is recast as a process that integrates all possible transition paths leading to future token states, with temporal evolution governed by the Feed-Forward Network. By systematically mapping each component of the Transformer to its counterpart in the Path Integral formulation, we obtain a more compact and efficient representation, in which the contextual information of a sequence is condensed into memory-like segments. These segments are recurrently processed across Transformer layers, enabling more effective long-term information retention. We validate the effectiveness of this approach through the Passkey retrieval task and a summarization task, demonstrating that the proposed method preserves historical information while exhibiting memory usage that scales linearly with sequence length. This contrasts with the non-linear memory growth typically observed in standard attention mechanisms. We expect that this quantum-inspired generalization of the Transformer architecture will open new avenues for enhancing both the efficiency and expressiveness of future Transformer models.

arxiv情報

著者 Won-Gi Paeng,Daesuk Kwon,Kyungwon Jeong,Honggyo Suh
発行日 2025-05-01 04:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE, hep-ph | Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers はコメントを受け付けていません

BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

要約

大規模な言語モデル(LLM)がツール使用エージェントに進化するにつれて、リアルタイムでWebを閲覧する能力は、推論と検索の能力を測定するための重要な基準になりました。
Browsecompなどの既存のベンチマークは、英語に集中し、他の主要な情報生態系、特に中国の言語、インフラストラクチャ、および検閲関連の複雑さを見落としています。
このギャップに対処するために、中国のWebでLLMエージェントを包括的に評価するために構築された高度なベンチマークであるBrowseComp-ZHを導入します。
BrowseComp-Zhは、11の多様なドメインにまたがる289のマルチホップ質問で構成されています。
各質問は、短く、客観的で、検証可能な答え(日付、数字、または固有名詞など)から逆エンジニアリングされます。
2段階の品質制御プロトコルが適用され、高い質問の難易度を求めて努力し、独自性に答えます。
提案されているBrowsecomp-Zhで、20​​を超える最先端の言語モデルとエージェント検索システムをベンチマークします。
強力な会話能力と検索機能にもかかわらず、ほとんどのモデルはひどく苦労しています。多くの数が10%未満で、20%を超えたほんの一握りです。
OpenaiのDeepResearchである最高のパフォーマンスシステムでさえ、わずか42.9%に達します。
これらの結果は、BrowseComp-ZHのかなりの困難を示しています。この場合、成功は効果的な検索戦略だけでなく、洗練された推論と情報の調整も必要とします。
データセット、建設ガイドライン、およびベンチマークの結果は、https://github.com/palin2018/browsecomp-zhで公開されています。

要約(オリジナル)

As large language models (LLMs) evolve into tool-using agents, the ability to browse the web in real-time has become a critical yardstick for measuring their reasoning and retrieval competence. Existing benchmarks such as BrowseComp concentrate on English and overlook the linguistic, infrastructural, and censorship-related complexities of other major information ecosystems — most notably Chinese. To address this gap, we introduce BrowseComp-ZH, a high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning 11 diverse domains. Each question is reverse-engineered from a short, objective, and easily verifiable answer (e.g., a date, number, or proper noun). A two-stage quality control protocol is applied to strive for high question difficulty and answer uniqueness. We benchmark over 20 state-of-the-art language models and agentic search systems on our proposed BrowseComp-ZH. Despite their strong conversational and retrieval capabilities, most models struggle severely: a large number achieve accuracy rates below 10%, and only a handful exceed 20%. Even the best-performing system, OpenAI’s DeepResearch, reaches just 42.9%. These results demonstrate the considerable difficulty of BrowseComp-ZH, where success demands not only effective retrieval strategies, but also sophisticated reasoning and information reconciliation — capabilities that current models still struggle to master. Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.

arxiv情報

著者 Peilin Zhou,Bruce Leon,Xiang Ying,Can Zhang,Yifan Shao,Qichen Ye,Dading Chong,Zhiling Jin,Chenxuan Xie,Meng Cao,Yuxin Gu,Sixin Hong,Jing Ren,Jian Chen,Chao Liu,Yining Hua
発行日 2025-05-01 05:02:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese はコメントを受け付けていません

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

要約

大規模な言語モデルの最近の進歩は、自己触たちの過度の二次コストを強調しました。
重要な研究努力にもかかわらず、地下の注意方法は依然として実際に劣っているパフォーマンスに苦しんでいます。
私たちは、コンテンツベースの動的で学んだコンテンツベースのスパースがより効率的な注意メカニズムにつながる可能性があると仮定します。
私たちは、専門家(MOE)と専門家の選択ルーティングの混合に触発された斬新なアプローチである、Sparse Anterestion(MOSA)の混合物を提示します。
MOSAは、各注意ヘッドのトークンを動的に選択し、任意のまばらな注意パターンを可能にします。
長さの$ t $のシーケンスから$ k $トークンを選択することにより、MOSAは各注意ヘッドの計算複雑さを$ o(t^2)$から$ o(k^2 + t)$に減らします。
これにより、同じ計算予算内でより多くのヘッドを使用することができ、より高い専門化が可能になります。
テストされたまばらな注意バリアントの中で、モザは密なベースラインよりも優れている唯一のものであり、同一の計算予算で最大27%の困惑を伴うことがあることを示します。
MOSAは、密集した自己告発と比較して、リソースの使用を減らすこともできます。
最適化されたカーネルなしでトーチの実装を使用しているにもかかわらず、困惑したMOSAモデルは、壁2時間で同時に高速で、トレーニングのメモリが少なくなり、密な変圧器ベースラインと比較してKVキャッシュのサイズを大幅に削減します。

要約(オリジナル)

Recent advances in large language models highlighted the excessive quadratic cost of self-attention. Despite the significant research efforts, subquadratic attention methods still suffer from inferior performance in practice. We hypothesize that dynamic, learned content-based sparsity can lead to more efficient attention mechanisms. We present Mixture of Sparse Attention (MoSA), a novel approach inspired by Mixture of Experts (MoE) with expert choice routing. MoSA dynamically selects tokens for each attention head, allowing arbitrary sparse attention patterns. By selecting $k$ tokens from a sequence of length $T$, MoSA reduces the computational complexity of each attention head from $O(T^2)$ to $O(k^2 + T)$. This enables using more heads within the same computational budget, allowing higher specialization. We show that among the tested sparse attention variants, MoSA is the only one that can outperform the dense baseline, sometimes with up to 27% better perplexity for an identical compute budget. MoSA can also reduce the resource usage compared to dense self-attention. Despite using torch implementation without an optimized kernel, perplexity-matched MoSA models are simultaneously faster in wall-clock time, require less memory for training, and drastically reduce the size of the KV-cache compared to the dense transformer baselines.

arxiv情報

著者 Piotr Piękos,Róbert Csordás,Jürgen Schmidhuber
発行日 2025-05-01 05:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing はコメントを受け付けていません

T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation

要約

テキストからビデオへの生成モデルは、近年大きな進歩を遂げ、審美的な魅力と正確な指導の両方に優れた高品質のビデオを作成し、デジタルアートの作成とユーザーエンゲージメントの中心となっています。
しかし、これらの進歩にもかかわらず、基本的な物理的法則を尊重する能力はほとんどテストされていないままです。多くの出力は、剛体の衝突、省エネ、重力のダイナミクスなどの基本的な制約に依然として違反しており、非現実的または誤解を招くコンテンツさえも生じています。
既存の物理的評価ベンチマークは、通常、単純なライフシナリオプロンプトに適用される自動、ピクセルレベルのメトリックに依存しているため、人間の判断と第一原理物理学の両方を見落としています。
このギャップを埋めるために、\ textBf {t2vphysbench}を導入します。これは、オープンソースと商業の両方で、最先端のテキストからビデオへのシステムシステムが、ニュートニアンメカニック、保全原則、表現型効果を含む12の中核的な物理法に従うかどうかを体系的に評価するベンチマークです。
当社のベンチマークは、厳格な人間の評価プロトコルを採用しており、3つのターゲット研究が含まれています。(1)すべてのモデルが各法律カテゴリで平均で0.60未満のスコアを示す全体的なコンプライアンス評価。
(2)詳細な法律固有のヒントでさえ物理学の違反を改善できないことを明らかにする迅速なヒントアブレーション。
(3)モデルがしばしば指示されたときに物理的ルールを明示的に破るビデオを生成することを示す反事実的堅牢性テスト。
結果は、現在のアーキテクチャの持続的な制限を公開し、真に物理学を認識するビデオ生成に向けて将来の研究を導くための具体的な洞察を提供します。

要約(オリジナル)

Text-to-video generative models have made significant strides in recent years, producing high-quality videos that excel in both aesthetic appeal and accurate instruction following, and have become central to digital art creation and user engagement online. Yet, despite these advancements, their ability to respect fundamental physical laws remains largely untested: many outputs still violate basic constraints such as rigid-body collisions, energy conservation, and gravitational dynamics, resulting in unrealistic or even misleading content. Existing physical-evaluation benchmarks typically rely on automatic, pixel-level metrics applied to simplistic, life-scenario prompts, and thus overlook both human judgment and first-principles physics. To fill this gap, we introduce \textbf{T2VPhysBench}, a first-principled benchmark that systematically evaluates whether state-of-the-art text-to-video systems, both open-source and commercial, obey twelve core physical laws including Newtonian mechanics, conservation principles, and phenomenological effects. Our benchmark employs a rigorous human evaluation protocol and includes three targeted studies: (1) an overall compliance assessment showing that all models score below 0.60 on average in each law category; (2) a prompt-hint ablation revealing that even detailed, law-specific hints fail to remedy physics violations; and (3) a counterfactual robustness test demonstrating that models often generate videos that explicitly break physical rules when so instructed. The results expose persistent limitations in current architectures and offer concrete insights for guiding future research toward truly physics-aware video generation.

arxiv情報

著者 Xuyang Guo,Jiayan Huo,Zhenmei Shi,Zhao Song,Jiahao Zhang,Jiale Zhao
発行日 2025-05-01 06:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation はコメントを受け付けていません

Enhancing AI-Driven Education: Integrating Cognitive Frameworks, Linguistic Feedback Analysis, and Ethical Considerations for Improved Content Generation

要約

人工知能(AI)は教育を急速に変革し、パーソナライズされた学習と合理化されたコンテンツの作成のための前例のない機会を提示しています。
ただし、教育環境におけるAIの可能性を最大限に引き出すには、AIが生成された材料の品質、認知的深さ、倫理的意味を慎重に検討する必要があります。
このペーパーでは、4つの関連する研究からの洞察を統合して、AI駆動型の教育ツールを強化するための包括的なフレームワークを提案しています。
認知評価フレームワーク(Bloomの分類法とソロ分類法)、AI生成フィードバックの言語分析、および効果的で責任あるAIツールの開発を導く倫理的設計原則を統合します。
認知的アライメント、言語フィードバック統合、および倫理的保護を含む構造化された3相アプローチの概要を説明します。
このフレームワークの実用的なアプリケーションは、クイズ生成向けのAI駆動ムードルプラグインであるOneClickquizへの統合を通じて実証されています。
この作業は、教育者、研究者、および教育者の可能性を活用しながら、教育コンテンツ生成における教育的および倫理的基準を支持することを目的とした包括的で実用的なガイドに貢献しています。

要約(オリジナル)

Artificial intelligence (AI) is rapidly transforming education, presenting unprecedented opportunities for personalized learning and streamlined content creation. However, realizing the full potential of AI in educational settings necessitates careful consideration of the quality, cognitive depth, and ethical implications of AI-generated materials. This paper synthesizes insights from four related studies to propose a comprehensive framework for enhancing AI-driven educational tools. We integrate cognitive assessment frameworks (Bloom’s Taxonomy and SOLO Taxonomy), linguistic analysis of AI-generated feedback, and ethical design principles to guide the development of effective and responsible AI tools. We outline a structured three-phase approach encompassing cognitive alignment, linguistic feedback integration, and ethical safeguards. The practical application of this framework is demonstrated through its integration into OneClickQuiz, an AI-powered Moodle plugin for quiz generation. This work contributes a comprehensive and actionable guide for educators, researchers, and developers aiming to harness AI’s potential while upholding pedagogical and ethical standards in educational content generation.

arxiv情報

著者 Antoun Yaacoub,Sansiri Tarnpradab,Phattara Khumprom,Zainab Assaghir,Lionel Prevost,Jérôme Da-Rugna
発行日 2025-05-01 06:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing AI-Driven Education: Integrating Cognitive Frameworks, Linguistic Feedback Analysis, and Ethical Considerations for Improved Content Generation はコメントを受け付けていません

R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

要約

データミキシング戦略により、言語モデルのトレーニングに伴うコストが正常に削減されました。
有望である間、そのような方法は2つの欠陥に苦しんでいます。
第一に、彼らは、重要なセマンティックニュアンスをキャプチャできず、テーブルにパフォーマンスを残すことができない場合がある、所定のデータドメイン(データソース、タスクタイプなど)に依存しています。
第二に、これらのメソッドは、計算的に法外な方法でドメインの数で拡大します。
これらの課題は、R&Bを介してこれらの課題に対処します。これは、セマンティックの類似性(再編成)に基づいてトレーニングデータを再分割して、より細かいドメインを作成し、トレーニング全体で得られたドメイン勾配によって誘導されるグラムマトリックスを活用することにより、データ構成(バランス)を効率的に最適化します。
以前の作品とは異なり、損失や勾配などの評価情報を取得するための追加の計算が必要になります。
標準的な規則性条件下でこの手法を分析し、非栄養ミキシングアプローチと比較してR&Bの有効性を正当化する理論的洞察を提供します。
経験的には、自然言語から推論やマルチモーダルタスクに至るまでの5つの多様なデータセットに対するR&Bの有効性を示します。
わずか0.01%の追加コンピューティングオーバーヘッドで、R&Bは最先端のデータミキシング戦略のパフォーマンスを一致させるか、それを超えます。

要約(オリジナル)

Data mixing strategies have successfully reduced the costs involved in training language models. While promising, such methods suffer from two flaws. First, they rely on predetermined data domains (e.g., data sources, task types), which may fail to capture critical semantic nuances, leaving performance on the table. Second, these methods scale with the number of domains in a computationally prohibitive way. We address these challenges via R&B, a framework that re-partitions training data based on semantic similarity (Regroup) to create finer-grained domains, and efficiently optimizes the data composition (Balance) by leveraging a Gram matrix induced by domain gradients obtained throughout training. Unlike prior works, it removes the need for additional compute to obtain evaluation information such as losses or gradients. We analyze this technique under standard regularity conditions and provide theoretical insights that justify R&B’s effectiveness compared to non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness of R&B on five diverse datasets ranging from natural language to reasoning and multimodal tasks. With as little as 0.01% additional compute overhead, R&B matches or exceeds the performance of state-of-the-art data mixing strategies.

arxiv情報

著者 Albert Ge,Tzu-Heng Huang,John Cooper,Avi Trost,Ziyi Chu,Satya Sai Srinath Namburi GNVV,Ziyang Cai,Kendall Park,Nicholas Roberts,Frederic Sala
発行日 2025-05-01 07:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training はコメントを受け付けていません

Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis

要約

この作業では、オープンソースのオートレグレッシブデコーダーのみの大型言語モデル(LLMS)のドメイン固有の翻訳パフォーマンスを、タスク指向の機械翻訳(MT)モデルと比較します。
私たちの実験は、医療ドメインに焦点を当て、さまざまなリソースの可用性を備えた4つの言語の方向性をカバーしています:英語からフランス語、英語からポルトガル、英語からスワヒリ語、スワヒリ語から英語です。
最近の進歩にもかかわらず、LLMSは、NLLB-200などの多言語エンコーダーデコーダーMTモデルと比較して、特殊な翻訳の重要な品質ギャップを示しています。
私たちの結果は、NLLB-200 3.3Bが、4つの言語方向のうち3つの方向に7-8Bパラメーター範囲で評価されたすべてのLLMを上回ることを示しています。
微調整は、ミストラルやLlamaなどのLLMSのパフォーマンスを向上させますが、これらのモデルは微調整されたNLLB-2003.3Bモデルと比較して依然としてパフォーマンスが低いです。
私たちの調査結果は、特に中型および低リソースの設定で、高品質のドメイン固有の翻訳を実現するための専門MTモデルの継続的な必要性を強調しています。
さらに、8Bバリエーションよりも大きなLLMSの優れたパフォーマンスは、ターゲットドメイン固有の中規模言語モデルの潜在的な価値を示唆しており、ターゲットを絞ったデータ選択と知識蒸留アプローチを採用して、特殊な翻訳タスクの品質と効率の両方を強化します。

要約(オリジナル)

In this work, we compare the domain-specific translation performance of open-source autoregressive decoder-only large language models (LLMs) with task-oriented machine translation (MT) models. Our experiments focus on the medical domain and cover four language directions with varied resource availability: English-to-French, English-to-Portuguese, English-to-Swahili, and Swahili-to-English. Despite recent advancements, LLMs demonstrate a significant quality gap in specialized translation compared to multilingual encoder-decoder MT models such as NLLB-200. Our results indicate that NLLB-200 3.3B outperforms all evaluated LLMs in the 7-8B parameter range across three out of the four language directions. While fine-tuning improves the performance of LLMs such as Mistral and Llama, these models still underperform compared to fine-tuned NLLB-200 3.3B models. Our findings highlight the ongoing need for specialized MT models to achieve high-quality domain-specific translation, especially in medium-resource and low-resource settings. Moreover, the superior performance of larger LLMs over their 8B variants suggests potential value in pre-training domain-specific medium-sized language models, employing targeted data selection and knowledge distillation approaches to enhance both quality and efficiency in specialized translation tasks.

arxiv情報

著者 Aman Kassahun Wassie,Mahdi Molaei,Yasmin Moslem
発行日 2025-05-01 07:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis はコメントを受け付けていません

KoACD: The First Korean Adolescent Dataset for Cognitive Distortion Analysis

要約

認知的歪みとは、青年のうつ病や不安などの精神的健康の問題につながる可能性のあるネガティブな思考パターンを指します。
自然言語処理(NLP)を使用した以前の研究では、主に小規模な成人データセットに焦点を当てており、青少年に関する研究は限られています。
この研究では、韓国の青年の認知歪みの最初の大規模なデータセットであるKOACDを紹介し、108,717インスタンスを含む。
歪み分類を改良し、2つのアプローチを使用して合成データを生成するために、多層言語モデル(LLM)ネゴシエーション方法を適用しました。
LLMSと専門家の評価による検証により、LLMSは明示的なマーカーで歪みを分類しましたが、人間の評価者がより高い精度を示したコンテキスト依存の推論に苦労したことが示されました。
KOACDは、認知歪み検出に関する将来の研究を強化することを目指しています。

要約(オリジナル)

Cognitive distortion refers to negative thinking patterns that can lead to mental health issues like depression and anxiety in adolescents. Previous studies using natural language processing (NLP) have focused mainly on small-scale adult datasets, with limited research on adolescents. This study introduces KoACD, the first large-scale dataset of cognitive distortions in Korean adolescents, containing 108,717 instances. We applied a multi-Large Language Model (LLM) negotiation method to refine distortion classification and generate synthetic data using two approaches: cognitive clarification for textual clarity and cognitive balancing for diverse distortion representation. Validation through LLMs and expert evaluations showed that while LLMs classified distortions with explicit markers, they struggled with context-dependent reasoning, where human evaluators demonstrated higher accuracy. KoACD aims to enhance future research on cognitive distortion detection.

arxiv情報

著者 JunSeo Kim,HyeHyeon Kim
発行日 2025-05-01 07:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | KoACD: The First Korean Adolescent Dataset for Cognitive Distortion Analysis はコメントを受け付けていません

Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement

要約

検索された生成(RAG)は、外部ソースから関連するドキュメントを取得し、それらをコンテキストに組み込むことにより、大規模な言語モデル(LLM)を強化します。
事実上のテキストを提供することで信頼性を向上させますが、コンテキストの長さが増加するにつれて推論コストが大幅に増加し、主にLLMSの対応するパラメトリック知識の欠如によって引き起こされるRAG幻覚の挑戦的な問題を導入します。
効率的な解決策は、テスト時にLLMの知識を強化することです。
パラメトリックRAG(PRAG)は、テスト時間の知識強化を実行するためにLLMSパラメーターにドキュメントを埋め込み、オフライントレーニングを通じて推論コストを効果的に削減することにより、これに対処します。
ただし、その高いトレーニングとストレージコストは、限られた一般化能力とともに、実際の採用を大幅に制限しています。
これらの課題に対処するために、軽量パラメーター翻訳モデルを活用してドキュメントをパラメトリック知識に効率的に変換する新しいフレームワークである動的なパラメトリックラグ(DYPRAG)を提案します。
DyPragは、推論、トレーニング、およびストレージコストを削減するだけでなく、パラメトリックな知識を動的に生成し、LLMSの知識をシームレスに強化し、テスト時にプラグアンドプレイの方法で知識の競合を解決します。
複数のデータセットでの広範な実験は、DYPRAGの有効性と一般化能力を示しており、優れた知識の融合を可能にし、実際のアプリケーションでぼろぼろの幻覚を軽減する強力で実用的なぼろきれパラダイムを提供します。
私たちのコードは、https://github.com/tre1oung/dypragで入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) enhances large language models (LLMs) by retrieving relevant documents from external sources and incorporating them into the context. While it improves reliability by providing factual texts, it significantly increases inference costs as context length grows and introduces challenging issue of RAG hallucination, primarily caused by the lack of corresponding parametric knowledge in LLMs. An efficient solution is to enhance the knowledge of LLMs at test-time. Parametric RAG (PRAG) addresses this by embedding document into LLMs parameters to perform test-time knowledge enhancement, effectively reducing inference costs through offline training. However, its high training and storage costs, along with limited generalization ability, significantly restrict its practical adoption. To address these challenges, we propose Dynamic Parametric RAG (DyPRAG), a novel framework that leverages a lightweight parameter translator model to efficiently convert documents into parametric knowledge. DyPRAG not only reduces inference, training, and storage costs but also dynamically generates parametric knowledge, seamlessly enhancing the knowledge of LLMs and resolving knowledge conflicts in a plug-and-play manner at test-time. Extensive experiments on multiple datasets demonstrate the effectiveness and generalization capabilities of DyPRAG, offering a powerful and practical RAG paradigm which enables superior knowledge fusion and mitigates RAG hallucination in real-world applications. Our code is available at https://github.com/Trae1ounG/DyPRAG.

arxiv情報

著者 Yuqiao Tan,Shizhu He,Huanxuan Liao,Jun Zhao,Kang Liu
発行日 2025-05-01 08:03:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement はコメントを受け付けていません

CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass

要約

情報の検索と計算言語学の基本的なタスクとして、文の表現は、テキストクラスタリング、コンテンツ分析、質問回答システム、Web検索などの幅広い実用的なアプリケーションに大きな意味を持ちます。
事前に訓練された言語モデル(PLMS)の最近の進歩は、特にBERTのような識別PLMSを中心とした監視されていない埋め込み派生方法を通じて、この分野で顕著な進歩を促進しています。
ただし、時間と計算上の制約により、一般的にはるかに大きなパラメーターサイズを持っている生成PLMSと監視されていない文の表現を統合しようとする努力はほとんどありません。
学界と産業の両方の最先端のモデルが主に生成アーキテクチャに基づいていることを考えると、デコーダーのみのPLMに合わせた効率的な教師のテキスト表現フレームワークが差し迫った必要性があります。
この懸念に対処するために、生成モデルの構造的特性を活用する革新的な方法であるCSE-SFPを提案します。
既存の戦略と比較して、CSE-SFPは、効果的な監視されていない対照学習を実行するために単一のフォワードパスのみを必要とします。
厳密な実験は、CSE-SFPが高品質の埋め込みを生成するだけでなく、トレーニング時間とメモリの消費の両方を大幅に削減することを示しています。
さらに、アライメントと均一性を共同で評価する2つの比率メトリックを導入し、エンコードモデルのセマンティック空間特性を評価するためのより堅牢な手段を提供します。

要約(オリジナル)

As a fundamental task in Information Retrieval and Computational Linguistics, sentence representation has profound implications for a wide range of practical applications such as text clustering, content analysis, question-answering systems, and web search. Recent advances in pre-trained language models (PLMs) have driven remarkable progress in this field, particularly through unsupervised embedding derivation methods centered on discriminative PLMs like BERT. However, due to time and computational constraints, few efforts have attempted to integrate unsupervised sentence representation with generative PLMs, which typically possess much larger parameter sizes. Given that state-of-the-art models in both academia and industry are predominantly based on generative architectures, there is a pressing need for an efficient unsupervised text representation framework tailored to decoder-only PLMs. To address this concern, we propose CSE-SFP, an innovative method that exploits the structural characteristics of generative models. Compared to existing strategies, CSE-SFP requires only a single forward pass to perform effective unsupervised contrastive learning. Rigorous experimentation demonstrates that CSE-SFP not only produces higher-quality embeddings but also significantly reduces both training time and memory consumption. Furthermore, we introduce two ratio metrics that jointly assess alignment and uniformity, thereby providing a more robust means for evaluating the semantic spatial properties of encoding models.

arxiv情報

著者 Bowen Zhang,Zixin Song,Chunping Li
発行日 2025-05-01 08:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass はコメントを受け付けていません