A theoretical framework for overfitting in energy-based modeling

要約

相互作用ネットワークを特定することを目的とした逆問題のペアワイズエネルギーベースのモデルのトレーニングに対する限られたデータの影響を調査します。
ガウスモデルをテストベッドとして利用して、カップリングマトリックスの固有ベシス全体のトレーニング軌跡を分析し、固有モードの独立した進化を活用し、学習タイムスケールが経験的共和性マトリックスのスペクトル分解に結び付けられていることを明らかにします。
これらのタイムスケールとトレーニングの初期条件との間の相互作用から、早期停止に最適なポイントが生じることがわかります。
さらに、有限データ補正は、漸近ランダムマトリックス理論計算を通じて正確にモデル化され、エネルギーベースのモデルコンテキストで一般化された交差検証の対応物を提供できることを示します。
分析フレームワークは、最小限のバリエーションを備えたバイナリ変数最大エントロピーペアワイズモデルに拡張されます。
これらの調査結果は、経験的収縮補正を通じて離散変数モデルの過剰適合を制御する戦略を提供し、エネルギーベースの生成モデルにおける過剰適合の管理を改善します。
最後に、スコアマッチングアルゴリズムの下でスコア関数の神経接線カーネルダイナミクスを導出することにより、任意のエネルギーベースのモデルへの一般化を提案します。

要約(オリジナル)

We investigate the impact of limited data on training pairwise energy-based models for inverse problems aimed at identifying interaction networks. Utilizing the Gaussian model as testbed, we dissect training trajectories across the eigenbasis of the coupling matrix, exploiting the independent evolution of eigenmodes and revealing that the learning timescales are tied to the spectral decomposition of the empirical covariance matrix. We see that optimal points for early stopping arise from the interplay between these timescales and the initial conditions of training. Moreover, we show that finite data corrections can be accurately modeled through asymptotic random matrix theory calculations and provide the counterpart of generalized cross-validation in the energy based model context. Our analytical framework extends to binary-variable maximum-entropy pairwise models with minimal variations. These findings offer strategies to control overfitting in discrete-variable models through empirical shrinkage corrections, improving the management of overfitting in energy-based generative models. Finally, we propose a generalization to arbitrary energy-based models by deriving the neural tangent kernel dynamics of the score function under the score-matching algorithm.

arxiv情報

著者 Giovanni Catania,Aurélien Decelle,Cyril Furtlehner,Beatriz Seoane
発行日 2025-06-05 17:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG | A theoretical framework for overfitting in energy-based modeling はコメントを受け付けていません

CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks

要約

大規模な言語モデル(LLM)は幅広いドメインを変換していますが、特に統合、要約、知識抽出などの複雑なオープンエンドタスクでは、出力を検証することは依然として重要な課題です。
これに対処するために、CheckEmbed(CE):シンプルでスケーラブルで正確な検証方法を紹介します。
CEは、SFR-embedding-Mistralのような強力な最新の埋め込みLLMモデルを使用して、各LLMの回答を単一の埋め込みベクトルに減らします。
BertscoreやSelfCheckgptなどの以前の方法は、Bertのような弱いエンコーダーに依存しており、トークンや文の粒度で動作することを強制しました。
対照的に、CEは、回答全レベルで直接高速で意味的に豊富な比較を実行し、精度とスケーラビリティの両方の主要な制限を克服します。
クラシックテキストの得点者(BLEUなど)、安定性ベースの方法(SelfCheckgptなど)、および生成評価者(LLM-As-A-Judgeなど)を含む13の検証ベースラインで包括的な設計と時間の複雑さ分析を実施します。
経験的結果は、CEが閉じたタスクとオープンエンドの両方のタスクの両方で幻覚を確実に検出することを示しています。
さらに、CEがテキストを超えてビジョンなどの他のモダリティに一般化し、実用的で多目的な検証フレームワークとして確立するという証拠を提示します。

要約(オリジナル)

Large Language Models (LLMs) are transforming a wide range of domains, yet verifying their outputs remains a significant challenge, especially for complex open-ended tasks such as consolidation, summarization, and knowledge extraction. To address this, we introduce CheckEmbed (CE): a simple, scalable, and accurate verification method. CE reduces each LLM answer to a single embedding vector using powerful modern embedding LLM models like SFR-Embedding-Mistral. Prior methods such as BERTScore and SelfCheckGPT relied on weaker encoders like BERT, forcing them to operate at token or sentence granularity. In contrast, CE performs fast, semantically rich comparisons directly at the whole-answer level, overcoming key limitations in both accuracy and scalability. We conduct a comprehensive design and time complexity analysis across 13 verification baselines, including classical text scorers (e.g., BLEU), stability-based methods (e.g., SelfCheckGPT), and generative evaluators (e.g., LLM-as-a-Judge), which highlights the effectiveness, efficiency, versatility, and simplicity of CE. Empirical results show that CE reliably detects hallucinations in both closed and open-ended tasks. We further present evidence that CE generalizes beyond text to other modalities such as vision, establishing it as a practical and versatile verification framework.

arxiv情報

著者 Maciej Besta,Lorenzo Paleari,Marcin Copik,Robert Gerstenberger,Ales Kubicek,Piotr Nyczyk,Patrick Iff,Eric Schreiber,Tanja Srindran,Tomasz Lehmann,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-06-05 16:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks はコメントを受け付けていません

macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

要約

グラフィカルユーザーインターフェイス(GUI)エージェントは、コンピューター使用タスクを自動化し、アクセシビリティを促進するための有望な機能を示していますが、既存のインタラクティブなベンチマークは、ほとんどが英語のみであり、Web使用またはWindows、Linux、およびAndroid環境をカバーしますが、Macosではありません。
MacOSは、独特のGUIパターンと排他的アプリケーションを備えた主要なOSです。
ギャップを橋渡しするために、MacosWorldを紹介します。これは、MacOSのGUIエージェントを評価するための最初の包括的なベンチマークです。
MacosWorldは、30のアプリケーション(28のMacos専用)にわたって202の多言語インタラクティブなタスクを備えており、タスク命令とOSインターフェイスは5つの言語(英語、中国語、アラビア語、日本、ロシア語)で提供されています。
GUIエージェントは欺ception攻撃に対して脆弱であることが示されているため、Macosworldには専用の安全ベンチマークサブセットも含まれています。
6人のGUIエージェントに関する評価は、劇的なギャップを明らかにしています。独自のコンピューター使用エージェントは30%を超える成功率でリードし、オープンソースの軽量研究モデルは2%未満で遅れ、MACOSドメイン適応の必要性を強調しています。
また、多言語のベンチマークは、特にアラビア語では、英語と比較して27.5%の平均劣化を伴う一般的な弱点を明らかにします。
安全ベンチマークの結果は、欺ception攻撃がより一般的であり、即座に注意を要求することを強調しています。
Macosworldはhttps://github.com/showlab/macosworldで入手できます。

要約(オリジナル)

Graphical User Interface (GUI) agents show promising capabilities for automating computer-use tasks and facilitating accessibility, but existing interactive benchmarks are mostly English-only, covering web-use or Windows, Linux, and Android environments, but not macOS. macOS is a major OS with distinctive GUI patterns and exclusive applications. To bridge the gaps, we present macOSWorld, the first comprehensive benchmark for evaluating GUI agents on macOS. macOSWorld features 202 multilingual interactive tasks across 30 applications (28 macOS-exclusive), with task instructions and OS interfaces offered in 5 languages (English, Chinese, Arabic, Japanese, and Russian). As GUI agents are shown to be vulnerable to deception attacks, macOSWorld also includes a dedicated safety benchmarking subset. Our evaluation on six GUI agents reveals a dramatic gap: proprietary computer-use agents lead at above 30% success rate, while open-source lightweight research models lag at below 2%, highlighting the need for macOS domain adaptation. Multilingual benchmarks also expose common weaknesses, especially in Arabic, with a 27.5% average degradation compared to English. Results from safety benchmarking also highlight that deception attacks are more general and demand immediate attention. macOSWorld is available at https://github.com/showlab/macosworld.

arxiv情報

著者 Pei Yang,Hai Ci,Mike Zheng Shou
発行日 2025-06-05 16:03:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | macOSWorld: A Multilingual Interactive Benchmark for GUI Agents はコメントを受け付けていません

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約

既存の統一モデルは、ビジョン言語の理解とテキストからイメージの生成において強力なパフォーマンスを実現しますが、画像の認識と操作に対処することは限られたままです。
最近、Openaiは強力なGPT-4Oイメージモデルを導入しました。これは、包括的な画像認識と操作における高度な機能を紹介し、広範囲にわたる関心を引き起こします。
慎重に設計された実験を通じて、GPT-4O-Imageは、画像操作タスクに一般的に重要であると見なされているにもかかわらず、特徴抽出のためにvaesではなくセマンティックエンコーダに依存している可能性が高いことがわかります。
この洞察に触発されて、私たちは、強力なマルチモーダルの大手言語モデルと対照的なセマンティックエンコーダから抽出されたセマンティック機能に基づいて構築された統一された生成フレームワークであるUniworld-V1を提案します。
2.7mのトレーニングデータのみを使用して、Uniworld-V1は、画像の理解、生成、操作、知覚など、多様なタスクで印象的なパフォーマンスを実現します。
再現性とさらなる研究を促進するために、モデルの重み、トレーニングと評価スクリプト、データセットを含むUniworld-V1フレームワークを完全にオープンソーシングします。

要約(オリジナル)

Although existing unified models achieve strong performance in vision-language understanding and text-to-image generation, they remain limited in addressing image perception and manipulation — capabilities increasingly demanded in practical applications. Recently, OpenAI introduced the powerful GPT-4o-Image model, which showcases advanced capabilities in comprehensive image perception and manipulation, sparking widespread interest. Through carefully designed experiments, we observe that GPT-4o-Image likely relies on semantic encoders rather than VAEs for feature extraction, despite VAEs being commonly regarded as crucial for image manipulation tasks. Inspired by this insight, we propose UniWorld-V1, a unified generative framework built upon semantic features extracted from powerful multimodal large language models and contrastive semantic encoders. Using only 2.7M training data, UniWorld-V1 achieves impressive performance across diverse tasks, including image understanding, generation, manipulation, and perception. We fully open-source the UniWorld-V1 framework, including model weights, training and evaluation scripts, and datasets to promote reproducibility and further research.

arxiv情報

著者 Bin Lin,Zongjian Li,Xinhua Cheng,Yuwei Niu,Yang Ye,Xianyi He,Shenghai Yuan,Wangbo Yu,Shaodong Wang,Yunyang Ge,Yatian Pang,Li Yuan
発行日 2025-06-05 16:41:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation はコメントを受け付けていません

FLIP: Flowability-Informed Powder Weighing

要約

粉末の自律的な操作は、科学研究所におけるロボット自動化にとって重要な課題のままです。
流れの粉末の固有の変動性と複雑な物理的相互作用は、実験室条件の変動性と相まって、適応性のある自動化を必要とします。
この作業では、粒状材料の取り扱いのためのロボットポリシー学習を強化するために設計された流動性情報に基づいたパウダーの計量フレームワークであるFlipを紹介します。
私たちの重要な貢献は、ベイジアン推論を通じて物理学ベースのシミュレーションを最適化するために、安価角によって定量化された材料の流れ性を使用することにあります。
これにより、「ロボット化学者」をトレーニングするために、多様な粉末行動を反映する正確なトレーニングデータを生成できる材料固有のシミュレーション環境が得られます。
これに基づいて、Flipは定量化された流動性をカリキュラム学習戦略に統合し、より挑戦的で流れの少ない粉末を徐々に導入することにより、堅牢なロボットポリシーの効率的な獲得を促進します。
現実世界の実験室条件下でのロボットパウダーの計量作業での方法の有効性を検証します。
実験結果は、カリキュラム戦略を使用してフリップが2.12 +/- 1.53 mgの低分配エラーを達成することを示しています。これは、ドメインランダム化(6.11 +/- 3.92 mg)などの流動性データを活用しない優れた方法です。
これらの結果は、Flipの改善された能力が、以前に見えていなかった、よりまとまりのある粉末と新しいターゲットマスに一般化する能力を示しています。

要約(オリジナル)

Autonomous manipulation of powders remains a significant challenge for robotic automation in scientific laboratories. The inherent variability and complex physical interactions of powders in flow, coupled with variability in laboratory conditions necessitates adaptive automation. This work introduces FLIP, a flowability-informed powder weighing framework designed to enhance robotic policy learning for granular material handling. Our key contribution lies in using material flowability, quantified by the angle of repose, to optimise physics-based simulations through Bayesian inference. This yields material-specific simulation environments capable of generating accurate training data, which reflects diverse powder behaviours, for training ‘robot chemists’. Building on this, FLIP integrates quantified flowability into a curriculum learning strategy, fostering efficient acquisition of robust robotic policies by gradually introducing more challenging, less flowable powders. We validate the efficacy of our method on a robotic powder weighing task under real-world laboratory conditions. Experimental results show that FLIP with a curriculum strategy achieves a low dispensing error of 2.12 +/- 1.53 mg, outperforming methods that do not leverage flowability data, such as domain randomisation (6.11 +/- 3.92 mg). These results demonstrate FLIP’s improved ability to generalise to previously unseen, more cohesive powders and to new target masses.

arxiv情報

著者 Nikola Radulov,Alex Wright,Thomas Little,Andrew I. Cooper,Gabriella Pizzuto
発行日 2025-06-05 12:33:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FLIP: Flowability-Informed Powder Weighing はコメントを受け付けていません

Optimizing Mesh to Improve the Triangular Expansion Algorithm for Computing Visibility Regions

要約

このペーパーでは、三角メッシュの最も有利なインスタンスである前処理構造を見つけることにより、可視性領域を計算するための三角形拡張アルゴリズム(TEA)のクエリパフォーマンスを改善する問題に対処します。
お茶は、目に見える領域を追跡しながら、メッシュを再帰的に横断します。これは、多角形の世界のクエリポイントから見えるすべてのポイントのセットです。
測定されたクエリ時間が、メッシュトラバーサル中の三角エッジ拡張の数にほぼ比例していることを示します。
クエリポイントが既知の確率分布から引き出されると仮定して、予想される拡張の数を最小限に抑える新しいタイプの三角メッシュを提案します。
メッシュに近似し、実際の環境に似た多くの挑戦的なインスタンスでアプローチを評価するためのヒューリスティックな方法を設計します。
提案されたメッシュは、参照制約のあるDelaunayの三角測量と比較して、平均クエリ時間を12〜16%改善します。
このアプローチは、前処理時間に対処せずに何百万ものクエリを計算する必要があるオフラインアプリケーションをブーストするのに適しています。
この実装は、実験を再現し、コミュニティに役立つために公開されています。

要約(オリジナル)

This paper addresses the problem of improving the query performance of the triangular expansion algorithm (TEA) for computing visibility regions by finding the most advantageous instance of the triangular mesh, the preprocessing structure. The TEA recursively traverses the mesh while keeping track of the visible region, the set of all points visible from a query point in a polygonal world. We show that the measured query time is approximately proportional to the number of triangle edge expansions during the mesh traversal. We propose a new type of triangular mesh that minimizes the expected number of expansions assuming the query points are drawn from a known probability distribution. We design a heuristic method to approximate the mesh and evaluate the approach on many challenging instances that resemble real-world environments. The proposed mesh improves the mean query times by 12-16% compared to the reference constrained Delaunay triangulation. The approach is suitable to boost offline applications that require computing millions of queries without addressing the preprocessing time. The implementation is publicly available to replicate our experiments and serve the community.

arxiv情報

著者 Jan Mikula,Miroslav Kulich
発行日 2025-06-05 08:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Optimizing Mesh to Improve the Triangular Expansion Algorithm for Computing Visibility Regions はコメントを受け付けていません

Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving

要約

自律運転は、モビリティ、交通安全、交通効率の重要な進歩を約束しますが、補強学習と模倣学習は、安全な探求と流通シフトの課題に直面しています。
人間とのコラボレーションはこれらの問題を軽減しますが、多くの場合、大規模な人間の介入に大きく依存しており、コストを増加させ、効率を削減します。
このペーパーでは、これらの制限を克服するための自信に基づいたヒューマンアイコラボレーション(C-HAC)戦略を開発します。
まず、C-HACは、分布ソフトアクタークリティック(DSAC)フレームワーク内で分布プロキシ値伝播法を採用しています。
人間の意図を表すためにリターン分布を活用することにより、C-HACは、人間の相互作用を最小限に抑えて、人間誘導政策の迅速かつ安定した学習を達成します。
その後、共有制御メカニズムが活性化され、学習した人間誘導ポリシーを累積報酬を最大化する自己学習ポリシーと統合します。
これにより、エージェントは、人間のガイダンスを超えてパフォーマンスを独立して継続的に向上させることができます。
最後に、ポリシー信頼評価アルゴリズムは、DSACのリターンディストリビューションネットワークを活用して、信頼に基づく介入関数を介して人間誘導と自己学習ポリシーの動的な切り替えを促進します。
これにより、エージェントは安全性とパフォーマンスの保証を維持しながら、最適なポリシーを追求できます。
多様な運転シナリオ全体の広範な実験により、C-HACは、安全性、効率性、および全体的なパフォーマンスの点で従来の方法を大幅に上回り、最先端の結果を達成することが明らかになりました。
提案された方法の有効性は、複雑な交通条件での実際の道路試験を通じてさらに検証されます。
ビデオとコードは、https://github.com/lzqw/c-hacで入手できます。

要約(オリジナル)

Autonomous driving promises significant advancements in mobility, road safety and traffic efficiency, yet reinforcement learning and imitation learning face safe-exploration and distribution-shift challenges. Although human-AI collaboration alleviates these issues, it often relies heavily on extensive human intervention, which increases costs and reduces efficiency. This paper develops a confidence-guided human-AI collaboration (C-HAC) strategy to overcome these limitations. First, C-HAC employs a distributional proxy value propagation method within the distributional soft actor-critic (DSAC) framework. By leveraging return distributions to represent human intentions C-HAC achieves rapid and stable learning of human-guided policies with minimal human interaction. Subsequently, a shared control mechanism is activated to integrate the learned human-guided policy with a self-learning policy that maximizes cumulative rewards. This enables the agent to explore independently and continuously enhance its performance beyond human guidance. Finally, a policy confidence evaluation algorithm capitalizes on DSAC’s return distribution networks to facilitate dynamic switching between human-guided and self-learning policies via a confidence-based intervention function. This ensures the agent can pursue optimal policies while maintaining safety and performance guarantees. Extensive experiments across diverse driving scenarios reveal that C-HAC significantly outperforms conventional methods in terms of safety, efficiency, and overall performance, achieving state-of-the-art results. The effectiveness of the proposed method is further validated through real-world road tests in complex traffic conditions. The videos and code are available at: https://github.com/lzqw/C-HAC.

arxiv情報

著者 Li Zeqiao,Wang Yijing,Wang Haoyu,Li Zheng,Li Peng,Zuo zhiqiang,Hu Chuan
発行日 2025-06-05 02:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving はコメントを受け付けていません

OpenThoughts: Data Recipes for Reasoning Models

要約

推論モデルは、数学、コード、科学を含む多くのベンチマークで急速に進歩しています。
しかし、最先端のモデルは、公開情報がほとんどまたはまったく利用できない独自のデータセットに依存しているため、推論に最適なトレーニングレシピについてまだ多くの未解決の質問があります。
これに対処するために、Openthoughtsプロジェクトの目標は、トレーニング推論モデルのためのオープンソースデータセットを作成することです。
最初の調査の後、OpentHoughts2-1MデータセットはOpenthinker2-32bにつながりました。これは、エイアイムやLiveCodebenchなどの標準的な推論ベンチマークでDeepSeek-R1-Distill-32Bを一致させるために公開された推論データで訓練された最初のモデルです。
次に、データ生成パイプラインの各ステップを1,000以上の制御実験で体系的に調査することにより、データセットをさらに改善し、それがOpentHoughts3につながりました。
パイプラインを1.2mの例にスケーリングし、教師としてQWQ-32Bを使用すると、Openthoughts3-7Bモデルが得られます。
deepseek-r1-distill-qwen-7b。
すべてのデータセットとモデルは、https://openthoughts.aiで入手できます。

要約(オリジナル)

Reasoning models have made rapid progress on many benchmarks involving math, code, and science. Yet, there are still many open questions about the best training recipes for reasoning since state-of-the-art models often rely on proprietary datasets with little to no public information available. To address this, the goal of the OpenThoughts project is to create open-source datasets for training reasoning models. After initial explorations, our OpenThoughts2-1M dataset led to OpenThinker2-32B, the first model trained on public reasoning data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as AIME and LiveCodeBench. We then improve our dataset further by systematically investigating each step of our data generation pipeline with 1,000+ controlled experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples and using QwQ-32B as teacher yields our OpenThoughts3-7B model, which achieves state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25, and 54% on GPQA Diamond – improvements of 15.3, 17.2, and 20.5 percentage points compared to the DeepSeek-R1-Distill-Qwen-7B. All of our datasets and models are available on https://openthoughts.ai.

arxiv情報

著者 Etash Guha,Ryan Marten,Sedrick Keh,Negin Raoof,Georgios Smyrnis,Hritik Bansal,Marianna Nezhurina,Jean Mercat,Trung Vu,Zayne Sprague,Ashima Suvarna,Benjamin Feuer,Liangyu Chen,Zaid Khan,Eric Frankel,Sachin Grover,Caroline Choi,Niklas Muennighoff,Shiye Su,Wanjia Zhao,John Yang,Shreyas Pimpalgaonkar,Kartik Sharma,Charlie Cheng-Jie Ji,Yichuan Deng,Sarah Pratt,Vivek Ramanujan,Jon Saad-Falcon,Jeffrey Li,Achal Dave,Alon Albalak,Kushal Arora,Blake Wulfe,Chinmay Hegde,Greg Durrett,Sewoong Oh,Mohit Bansal,Saadia Gabriel,Aditya Grover,Kai-Wei Chang,Vaishaal Shankar,Aaron Gokaslan,Mike A. Merrill,Tatsunori Hashimoto,Yejin Choi,Jenia Jitsev,Reinhard Heckel,Maheswaran Sathiamoorthy,Alexandros G. Dimakis,Ludwig Schmidt
発行日 2025-06-05 02:21:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | OpenThoughts: Data Recipes for Reasoning Models はコメントを受け付けていません

Rectified Sparse Attention

要約

効率的な長シーケンス生成は、大規模な言語モデルにとって重要な課題です。
最近のスパースデコード方法は効率を改善しますが、近似誤差が生成の品質を蓄積して低下させるKVキャッシュの不整合に苦しんでいます。
この作業では、ブロックスパースの注意と周期的な密な整流を組み合わせたシンプルで効果的な方法である整流されたまばらな注意(RESA)を提案します。
密なフォワードパスを使用して固定間隔でKVキャッシュを更新することにより、RESAはエラーの蓄積を境界し、前oraining分布とのアライメントを保持します。
数学の推論、言語モデリング、および検索タスク全体の実験は、RESAが効率を大幅に改善して、ほぼ失われない世代の品質を達成することを示しています。
特に、RESAは、256Kシーケンス長でデコードする下で最大2.42 $ \ Times $のエンドツーエンドスピードアップを提供し、スケーラブルな長いコンテキスト推論の実用的なソリューションになります。
コードはhttps://aka.ms/resa-lmで入手できます。

要約(オリジナル)

Efficient long-sequence generation is a critical challenge for Large Language Models. While recent sparse decoding methods improve efficiency, they suffer from KV cache misalignment, where approximation errors accumulate and degrade generation quality. In this work, we propose Rectified Sparse Attention (ReSA), a simple yet effective method that combines block-sparse attention with periodic dense rectification. By refreshing the KV cache at fixed intervals using a dense forward pass, ReSA bounds error accumulation and preserves alignment with the pretraining distribution. Experiments across math reasoning, language modeling, and retrieval tasks demonstrate that ReSA achieves near-lossless generation quality with significantly improved efficiency. Notably, ReSA delivers up to 2.42$\times$ end-to-end speedup under decoding at 256K sequence length, making it a practical solution for scalable long-context inference. Code is available at https://aka.ms/ReSA-LM.

arxiv情報

著者 Yutao Sun,Tianzhu Ye,Li Dong,Yuqing Xia,Jian Chen,Yizhao Gao,Shijie Cao,Jianyong Wang,Furu Wei
発行日 2025-06-05 05:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rectified Sparse Attention はコメントを受け付けていません

Biased by Design: Leveraging Inherent AI Biases to Enhance Critical Thinking of News Readers

要約

このペーパーでは、大規模な言語モデル(LLMS)を使用したプロパガンダ検出ツールの設計について説明します。
AIモデル、特に政治的文脈における固有のバイアスを認めて、ニュース消費における批判的思考を強化するためにこれらのバイアスがどのように活用されるかを調査します。
AIバイアスの典型的な見解に有害なものとして対抗すると、私たちの研究は、ユーザーの政治的スタンスに応じてユーザーの選択とパーソナライズの戦略を提案し、確認バイアスと認知的不協和音の心理的概念を適用します。
Propaganda検出におけるAIツールの洞察と設計の推奨事項(バイアス認識、パーソナライズ、選択、多様な視点の徐々に紹介)を提供する定性的ユーザー調査の調査結果を提示します。

要約(オリジナル)

This paper explores the design of a propaganda detection tool using Large Language Models (LLMs). Acknowledging the inherent biases in AI models, especially in political contexts, we investigate how these biases might be leveraged to enhance critical thinking in news consumption. Countering the typical view of AI biases as detrimental, our research proposes strategies of user choice and personalization in response to a user’s political stance, applying psychological concepts of confirmation bias and cognitive dissonance. We present findings from a qualitative user study, offering insights and design recommendations (bias awareness, personalization and choice, and gradual introduction of diverse perspectives) for AI tools in propaganda detection.

arxiv情報

著者 Liudmila Zavolokina,Kilian Sprenkamp,Zoya Katashinskaya,Daniel Gordon Jones
発行日 2025-06-05 06:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Biased by Design: Leveraging Inherent AI Biases to Enhance Critical Thinking of News Readers はコメントを受け付けていません