Block Circulant Adapter for Large Language Models

要約

大型言語モデル(LLMS)の微調整は、モデルサイズが大きいため困難です。
最近のフーリエドメインベースの方法は、微調整コストを削減する可能性を示しています。
循環マトリックスと1次元フーリエ変換の特性を活用して、ストレージと計算コストを削減するために、安定したトレーニングヒューリスティックを備えたブロック循環マトリックスベースの微調整法を提案します。
実験では、私たちの方法では、Veraよりも14ドルのパラメーター数が少なく、$ 16 \ Times $がLORAよりも小さく、$ 32 \ Times $がForierftよりも少ないことが使用されていることが示されています。
私たちのアプローチは、下流タスクで大きなモデルを微調整するための周波数ドメインの有望な方法を提示します。

要約(オリジナル)

Fine-tuning large language models (LLMs) is difficult due to their huge model size. Recent Fourier domain-based methods show potential for reducing fine-tuning costs. We propose a block circulant matrix-based fine-tuning method with a stable training heuristic to leverage the properties of circulant matrices and one-dimensional Fourier transforms to reduce storage and computation costs. Experiments show that our method uses $14\times$ less number of parameters than VeRA, $16\times$ smaller than LoRA and $32\times$ less FLOPs than FourierFT, while maintaining close or better task performance. Our approach presents a promising way in frequency domain to fine-tune large models on downstream tasks.

arxiv情報

著者 Xinyu Ding,Meiqi Wang,Siyu Liao,Zhongfeng Wang
発行日 2025-05-01 15:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Block Circulant Adapter for Large Language Models はコメントを受け付けていません

Investigating Task Arithmetic for Zero-Shot Information Retrieval

要約

大規模な言語モデル(LLM)は、ドキュメントの再ランクを含むさまざまな自然言語処理タスクで印象的なゼロショットパフォーマンスを示しています。
しかし、それらの有効性は、主に語彙と単語分布の変化によるもので、目に見えないタスクとドメインに悪化します。
このホワイトペーパーでは、タスク算術を調査します。これは、追加の微調整を必要とせずに検索モデルを適応させるために、追加や減算などの単純な数学操作を介して、さまざまなタスクまたはドメインで事前に訓練されたLLMの重みを組み合わせた手法です。
私たちの方法は、多様なタスクとドメインの知識を単一のモデルに合成し、さまざまな検索コンテキストで効果的なゼロショット適応を可能にすることができます。
科学的、生物医学的、多言語データセットに関する公開されている広範な実験では、この方法がNDCG@10で最大18%、P@10で15%を最大18%改善することが示されています。
これらの経験的利益に加えて、我々の分析は、ゼロショット学習とモデル適応のための実用的な戦略として、タスク算術の長所と制限に関する洞察を提供します。
コードをhttps://github.com/detectivemb/task-arithmetic-for-zs-irで公開しています。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive zero-shot performance across a variety of Natural Language Processing tasks, including document re-ranking. However, their effectiveness degrades on unseen tasks and domains, largely due to shifts in vocabulary and word distributions. In this paper, we investigate Task Arithmetic, a technique that combines the weights of LLMs pre-trained on different tasks or domains via simple mathematical operations, such as addition or subtraction, to adapt retrieval models without requiring additional fine-tuning. Our method is able to synthesize diverse tasks and domain knowledge into a single model, enabling effective zero-shot adaptation in different retrieval contexts. Extensive experiments on publicly available scientific, biomedical, and multilingual datasets show that our method improves state-of-the-art re-ranking performance by up to 18% in NDCG@10 and 15% in P@10. In addition to these empirical gains, our analysis provides insights into the strengths and limitations of Task Arithmetic as a practical strategy for zero-shot learning and model adaptation. We make our code publicly available at https://github.com/DetectiveMB/Task-Arithmetic-for-ZS-IR.

arxiv情報

著者 Marco Braga,Pranav Kasela,Alessandro Raganato,Gabriella Pasi
発行日 2025-05-01 16:48:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Investigating Task Arithmetic for Zero-Shot Information Retrieval はコメントを受け付けていません

Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions

要約

メモリはAIシステムの基本的なコンポーネントであり、大規模な言語モデル(LLMS)ベースのエージェントを支えています。
以前の調査では、LLMSを使用したメモリアプリケーションに焦点を当てていますが、多くの場合、メモリダイナミクスの根底にある原子操作を見落としています。
この調査では、まずメモリ表現をパラメトリック、コンテキスト構造、およびコンテキスト非構造化に分類し、次に6つの基本的なメモリ操作を導入します:統合、更新、インデックス作成、忘却、取得、および圧縮。
これらの操作は、長期的な長期的な文字、パラメトリック変更、およびマルチソースメモリにわたって、最も関連性の高い研究トピックに体系的にマッピングします。
原子運用と表現タイプのレンズを通じてメモリシステムを再構成することにより、この調査は、AIのメモリに関連する研究、ベンチマークデータセット、およびLLMSベースのエージェントの機能的相互作用を明確にしながら、将来の研究のための有望な方向性の概要を明確にするための構造化された動的な視点を提供します{論文リスト、データセット、メソッド、およびツールを利用可能にします。
\ href {https://github.com/elvin-yming-du/survey_memory_in_ai} {https://github.com/elvin-yiming-du/survey \_memory\_in\_ai}。}。

要約(オリジナル)

Memory is a fundamental component of AI systems, underpinning large language models (LLMs) based agents. While prior surveys have focused on memory applications with LLMs, they often overlook the atomic operations that underlie memory dynamics. In this survey, we first categorize memory representations into parametric, contextual structured, and contextual unstructured and then introduce six fundamental memory operations: Consolidation, Updating, Indexing, Forgetting, Retrieval, and Compression. We systematically map these operations to the most relevant research topics across long-term, long-context, parametric modification, and multi-source memory. By reframing memory systems through the lens of atomic operations and representation types, this survey provides a structured and dynamic perspective on research, benchmark datasets, and tools related to memory in AI, clarifying the functional interplay in LLMs based agents while outlining promising directions for future research\footnote{The paper list, datasets, methods and tools are available at \href{https://github.com/Elvin-Yiming-Du/Survey_Memory_in_AI}{https://github.com/Elvin-Yiming-Du/Survey\_Memory\_in\_AI}.}.

arxiv情報

著者 Yiming Du,Wenyu Huang,Danna Zheng,Zhaowei Wang,Sebastien Montella,Mirella Lapata,Kam-Fai Wong,Jeff Z. Pan
発行日 2025-05-01 17:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions はコメントを受け付けていません

Steering Large Language Models with Register Analysis for Arbitrary Style Transfer

要約

大規模な言語モデル(LLMS)は、さまざまなスタイルにわたってテキストを書き換えることに強い能力を実証しています。
ただし、特定の模範のスタイルと一致するように入力テキストが書き換えられたたとえば、この能力を実質的に活用して、任意のスタイル転送は、未解決の課題のままです。
重要な質問は、高品質の書き換えにLLMを導くために模範のスタイルを説明する方法です。
この作業では、このタスクを実行するためにLLMSをガイドするためのレジスタ分析に基づくプロンプトメソッドを提案します。
複数のスタイルの転送タスクにわたる経験的評価は、私たちのプロンプトアプローチがスタイルの転送強度を高める一方で、既存のプロンプト戦略よりも効果的に意味を維持することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong capabilities in rewriting text across various styles. However, effectively leveraging this ability for example-based arbitrary style transfer, where an input text is rewritten to match the style of a given exemplar, remains an open challenge. A key question is how to describe the style of the exemplar to guide LLMs toward high-quality rewrites. In this work, we propose a prompting method based on register analysis to guide LLMs to perform this task. Empirical evaluations across multiple style transfer tasks show that our prompting approach enhances style transfer strength while preserving meaning more effectively than existing prompting strategies.

arxiv情報

著者 Xinchen Yang,Marine Carpuat
発行日 2025-05-01 17:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Steering Large Language Models with Register Analysis for Arbitrary Style Transfer はコメントを受け付けていません

Challenges and Future Directions of Data-Centric AI Alignment

要約

AIシステムがますます能力が高く影響力が高まるにつれて、人間の価値、好み、目標との整合性を確保することが重要な研究の焦点になりました。
現在のアライメント方法は、主にアルゴリズムと損失関数の設計に焦点を当てていますが、多くの場合、データの重要な役割を過小評価しています。
このペーパーでは、データ中心のAIアライメントへのシフトを提唱し、AIシステムの調整に使用されるデータの品質と代表性を高める必要性を強調しています。
このポジションペーパーでは、データ中心のアライメントフレームワーク内のヒトベースとAIベースのフィードバックの両方に関連する重要な課題を強調します。
定性分析を通じて、人間のフィードバックにおける信頼性の信頼性の複数のソース、および時間的ドリフト、コンテキスト依存、およびAIベースのフィードバックに関連する問題は、固有のモデルの制限のために人間の価値をキャプチャできないことを特定します。
改善されたフィードバック収集慣行、堅牢なデータクリーニング方法、および厳密なフィードバック検証プロセスなど、将来の研究の方向性を提案します。
これらの重要な方向性の将来の研究を要求して、データ中心のアライメントプラクティスの理解と改善に持続するギャップに対処します。

要約(オリジナル)

As AI systems become increasingly capable and influential, ensuring their alignment with human values, preferences, and goals has become a critical research focus. Current alignment methods primarily focus on designing algorithms and loss functions but often underestimate the crucial role of data. This paper advocates for a shift towards data-centric AI alignment, emphasizing the need to enhance the quality and representativeness of data used in aligning AI systems. In this position paper, we highlight key challenges associated with both human-based and AI-based feedback within the data-centric alignment framework. Through qualitative analysis, we identify multiple sources of unreliability in human feedback, as well as problems related to temporal drift, context dependence, and AI-based feedback failing to capture human values due to inherent model limitations. We propose future research directions, including improved feedback collection practices, robust data-cleaning methodologies, and rigorous feedback verification processes. We call for future research into these critical directions to ensure, addressing gaps that persist in understanding and improving data-centric alignment practices.

arxiv情報

著者 Min-Hsuan Yeh,Jeffrey Wang,Xuefeng Du,Seongheon Park,Leitian Tao,Shawn Im,Yixuan Li
発行日 2025-05-01 17:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Challenges and Future Directions of Data-Centric AI Alignment はコメントを受け付けていません

Variational OOD State Correction for Offline Reinforcement Learning

要約

オフライン強化学習のパフォーマンスは、州の分布シフトの問題によって大きな影響を受けます。また、分散除外(OOD)状態修正は、この問題に対処するための一般的なアプローチです。
この論文では、OOD状態補正のための密度を認識した安全性認識(DASP)という名前の新しい方法を提案します。
具体的には、私たちの方法では、エージェントがデータ密度が高い結果につながるアクションに優先順位を付けることを奨励し、それによって分配内(安全)領域内での動作または復帰を促進します。
これを達成するために、意思決定の潜在的な結果とその密度の両方を同時に考慮して、安全な意思決定のための重要なコンテキスト情報を提供する変動フレームワーク内で目的を最適化します。
最後に、オフラインのMujocoおよびAntmaze Suitesでの広範な実験的評価を通じて、提案された方法の有効性と実現可能性を検証します。

要約(オリジナル)

The performance of Offline reinforcement learning is significantly impacted by the issue of state distributional shift, and out-of-distribution (OOD) state correction is a popular approach to address this problem. In this paper, we propose a novel method named Density-Aware Safety Perception (DASP) for OOD state correction. Specifically, our method encourages the agent to prioritize actions that lead to outcomes with higher data density, thereby promoting its operation within or the return to in-distribution (safe) regions. To achieve this, we optimize the objective within a variational framework that concurrently considers both the potential outcomes of decision-making and their density, thus providing crucial contextual information for safe decision-making. Finally, we validate the effectiveness and feasibility of our proposed method through extensive experimental evaluations on the offline MuJoCo and AntMaze suites.

arxiv情報

著者 Ke Jiang,Wen Jiang,Xiaoyang Tan
発行日 2025-05-01 13:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Variational OOD State Correction for Offline Reinforcement Learning はコメントを受け付けていません

HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection

要約

大規模な言語モデル(LLM)がハイステークスドメインでますます展開されているため、証拠のサポートに基づいていない幻覚コンテンツ$ \ unicode {x2013} $テキストを検出します$ \ unicode {x2013} $は重要な課題になりました。
幻覚検出のための既存のベンチマークは、しばしば合成的に生成され、抽出的な質問応答に狭く焦点を当てており、マルチドキュメントコンテキストとフルセンテンス出力を含む実際のシナリオの複雑さをキャプチャできません。
さまざまなドメインと形式の例を含む、多様なタスクと存在するデータセットであるHallumixベンチマークを紹介します。
このベンチマークを使用して、7つの幻覚検出システム$ \ unicode {x2013} $の両方のオープンソースと閉じたソース$ \ unicode {x2013} $の両方を評価します。
私たちの分析は、短いコンテキストと長いコンテキストの間のかなりのパフォーマンスの格差を強調しており、現実世界の検索拡張生成(RAG)の実装に重大な影響を与えます。
商の検出は、0.82の精度と0.84の精度で最高の全体的なパフォーマンスを達成します。

要約(オリジナル)

As large language models (LLMs) are increasingly deployed in high-stakes domains, detecting hallucinated content$\unicode{x2013}$text that is not grounded in supporting evidence$\unicode{x2013}$has become a critical challenge. Existing benchmarks for hallucination detection are often synthetically generated, narrowly focused on extractive question answering, and fail to capture the complexity of real-world scenarios involving multi-document contexts and full-sentence outputs. We introduce the HalluMix Benchmark, a diverse, task-agnostic dataset that includes examples from a range of domains and formats. Using this benchmark, we evaluate seven hallucination detection systems$\unicode{x2013}$both open and closed source$\unicode{x2013}$highlighting differences in performance across tasks, document lengths, and input representations. Our analysis highlights substantial performance disparities between short and long contexts, with critical implications for real-world Retrieval Augmented Generation (RAG) implementations. Quotient Detections achieves the best overall performance, with an accuracy of 0.82 and an F1 score of 0.84.

arxiv情報

著者 Deanna Emery,Michael Goitia,Freddie Vargus,Iulia Neagu
発行日 2025-05-01 13:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection はコメントを受け付けていません

Safety-Critical Traffic Simulation with Guided Latent Diffusion Model

要約

安全性の高いトラフィックシミュレーションは、まれで挑戦的なシナリオの下で自律的な駆動システムを評価する上で重要な役割を果たします。
ただし、既存のアプローチは、物理的な妥当性を考慮していないため、非現実的なシナリオを生成し、低発電効率に悩まされています。
これらの制限に対処するために、身体的に現実的で敵対的な安全性の高いトラフィックシナリオを生成できる誘導潜水モデル(LDM)を提案します。
具体的には、我々のモデルはグラフベースのバリエーションオートエンコーダー(VAE)を採用して、計算効率を改善しながら複雑なマルチエージェント相互作用をキャプチャするコンパクトな潜在スペースを学習します。
この潜在空間内で、拡散モデルは除去プロセスを実行して現実的な軌跡を生成します。
制御可能で敵対的なシナリオ生成を可能にするために、拡散プロセスを促進し、敵対的で行動的に現実的な運転行動を生成するための拡散プロセスを促進する新しいガイダンス目標を紹介します。
さらに、生成されたシナリオの物理的妥当性をさらに強化するために、物理的な実現可能性チェックに基づいてサンプル選択モジュールを開発します。
ヌスセンデータセットでの広範な実験は、高レベルのリアリズムを維持しながら、既存のベースラインと比較して、この方法が優れた敵対的効果と生成効率を達成することを示しています。
私たちの仕事は、現実的な安全性クリティカルなシナリオシミュレーションのための効果的なツールを提供し、自律運転システムのより堅牢な評価への道を開いています。

要約(オリジナル)

Safety-critical traffic simulation plays a crucial role in evaluating autonomous driving systems under rare and challenging scenarios. However, existing approaches often generate unrealistic scenarios due to insufficient consideration of physical plausibility and suffer from low generation efficiency. To address these limitations, we propose a guided latent diffusion model (LDM) capable of generating physically realistic and adversarial safety-critical traffic scenarios. Specifically, our model employs a graph-based variational autoencoder (VAE) to learn a compact latent space that captures complex multi-agent interactions while improving computational efficiency. Within this latent space, the diffusion model performs the denoising process to produce realistic trajectories. To enable controllable and adversarial scenario generation, we introduce novel guidance objectives that drive the diffusion process toward producing adversarial and behaviorally realistic driving behaviors. Furthermore, we develop a sample selection module based on physical feasibility checks to further enhance the physical plausibility of the generated scenarios. Extensive experiments on the nuScenes dataset demonstrate that our method achieves superior adversarial effectiveness and generation efficiency compared to existing baselines while maintaining a high level of realism. Our work provides an effective tool for realistic safety-critical scenario simulation, paving the way for more robust evaluation of autonomous driving systems.

arxiv情報

著者 Mingxing Peng,Ruoyu Yao,Xusen Guo,Yuting Xie,Xianda Chen,Jun Ma
発行日 2025-05-01 13:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Safety-Critical Traffic Simulation with Guided Latent Diffusion Model はコメントを受け付けていません

TRIED: Truly Innovative and Effective AI Detection Benchmark, developed by WITNESS

要約

生成的AIと欺cept的な合成メディアの急増は、特に世界的多数派全体で世界的な情報生態系を脅かしています。
証人からのこのレポートは、現在のAI検出ツールの限界を強調しています。これは、説明可能性、公平性、アクセシビリティ、および文脈上の関連性に関連する課題のために、実際のシナリオでしばしばパフォーマンスを低下させます。
これに応じて、証人は、実際の影響とイノベーションの能力に基づいて検出ツールを評価するための新しいフレームワークである、真に革新的で効果的なAI検出(TRAID)ベンチマークを紹介します。
最前線の経験、欺cept的なAIのケース、およびグローバルな相談に基づいて、このレポートは、多様な言語的、文化的、技術的文脈を満たすことにより、検出ツールが真に革新的かつ関連性を持つように進化しなければならない方法を概説しています。
開発者、ポリシーアクター、および標準団体に、説明責任、透明性、ユーザー中心の検出ソリューションを設計し、将来のAI標準、手順、評価フレームワークに社会技術的な考慮事項を設計するための実用的なガイダンスを提供します。
試行されたベンチマークを採用することにより、利害関係者はイノベーションを推進し、公共の信頼を守り、AIリテラシーを強化し、より回復力のあるグローバルな情報の信頼性に貢献できます。

要約(オリジナル)

The proliferation of generative AI and deceptive synthetic media threatens the global information ecosystem, especially across the Global Majority. This report from WITNESS highlights the limitations of current AI detection tools, which often underperform in real-world scenarios due to challenges related to explainability, fairness, accessibility, and contextual relevance. In response, WITNESS introduces the Truly Innovative and Effective AI Detection (TRIED) Benchmark, a new framework for evaluating detection tools based on their real-world impact and capacity for innovation. Drawing on frontline experiences, deceptive AI cases, and global consultations, the report outlines how detection tools must evolve to become truly innovative and relevant by meeting diverse linguistic, cultural, and technological contexts. It offers practical guidance for developers, policy actors, and standards bodies to design accountable, transparent, and user-centered detection solutions, and incorporate sociotechnical considerations into future AI standards, procedures and evaluation frameworks. By adopting the TRIED Benchmark, stakeholders can drive innovation, safeguard public trust, strengthen AI literacy, and contribute to a more resilient global information credibility.

arxiv情報

著者 Shirin Anlen,Zuzanna Wojciak
発行日 2025-05-01 13:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | TRIED: Truly Innovative and Effective AI Detection Benchmark, developed by WITNESS はコメントを受け付けていません

Multi-Objective Reinforcement Learning for Power Grid Topology Control

要約

さまざまなセクターの電化には、より多くの電力を送信する必要があるため、トランスミッショングリッドの混雑が増加します。
トポロジー制御は、変電所の再構成を通じて、混雑を減らすことができますが、その可能性は操業において不足していないままです。
課題は、トポロジー制御の問題をモデル化して、オペレーターの目的と制約とうまく調和することです。
この課題に対処すると、このペーパーでは、電力グリッドトポロジーコントロールの複数の矛盾する目標を統合するための多目的補強学習(MORL)の適用を調査します。
深い楽観的な線形サポート(DOL)および多目的近位ポリシー最適化(MOPPO)を使用してMORLアプローチを開発し、ラインローディング、トポロジ逸脱、スイッチング周波数の最小化などの目標のバランスをとる一連のパレート最適なポリシーを生成します。
最初のケーススタディは、MORLアプローチが客観的なトレードオフに関する貴重な洞察を提供し、ランダム検索ベースラインと比較してパレートの前面近似を改善できることを示しています。
生成された多目的RLポリシーは、偶発事象の下でのグリッド障害の防止に30%成功し、トレーニング予算が削減されると20%が効果的になりました。

要約(オリジナル)

Transmission grid congestion increases as the electrification of various sectors requires transmitting more power. Topology control, through substation reconfiguration, can reduce congestion but its potential remains under-exploited in operations. A challenge is modeling the topology control problem to align well with the objectives and constraints of operators. Addressing this challenge, this paper investigates the application of multi-objective reinforcement learning (MORL) to integrate multiple conflicting objectives for power grid topology control. We develop a MORL approach using deep optimistic linear support (DOL) and multi-objective proximal policy optimization (MOPPO) to generate a set of Pareto-optimal policies that balance objectives such as minimizing line loading, topological deviation, and switching frequency. Initial case studies show that the MORL approach can provide valuable insights into objective trade-offs and improve Pareto front approximation compared to a random search baseline. The generated multi-objective RL policies are 30% more successful in preventing grid failure under contingencies and 20% more effective when training budget is reduced – compared to the common single objective RL policy.

arxiv情報

著者 Thomas Lautenbacher,Ali Rajaei,Davide Barbieri,Jan Viebahn,Jochen L. Cremer
発行日 2025-05-01 13:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | Multi-Objective Reinforcement Learning for Power Grid Topology Control はコメントを受け付けていません