Learning from Peers in Reasoning Models

要約

大規模な推論モデル(LRM)は、推論パスで間違いを犯した場合でも、自己修正する能力を持っています。
しかし、私たちの研究では、推論プロセスが短いが貧弱な始まりから始まると、モデルが回復することが困難になることが明らかになりました。
この現象を「プレフィックスドミナンストラップ」と呼びます。
ピアインタラクションがすでに正確な個人に悪影響を与えることなく自己修正を促進できるという心理的な発見に触発されて、私たちはこの現象に対処するためにピアから学ぶ**(leap)を提案します。
具体的には、すべてのトークンは、各推論パスを中間推論を要約し、ルーティングメカニズムを介して他の人と共有し、パスが推論中にピア洞察を組み込むことを可能にします。
ただし、小さなモデルが要約と反射の指示に効果的に従わない場合があることがわかります。
これに対処するために、それらを** Leap-T **モデルシリーズに微調整します。
AIME 2024、AIME 2025、AIMO 2025、およびGPQAダイヤモンドの実験は、Leapが大幅な改善を提供することを示しています。
たとえば、LEAPのQWQ-32Bは、平均してベースラインよりもベースラインよりも5つ近い絶対ポイントが5つ近く達成され、平均3.3ポイントの3つの数学ベンチマークでDeepSeek-R1-671Bを上回ります。
特に、微調整されたLeap-T-7Bは、AIME 2024でのDeepSeek-R1-Distill-Qwen-14Bのパフォーマンスと一致しています。詳細な分析は、タイムリーなピア洞察によるLeapの堅牢なエラー補正を明らかにし、強いエラーの許容度とさまざまなタスクの難易度を扱うことを示しています。
LRMSが推論中に協力できるようにすることにより、LEAPはマイルストーンを示します。
コード、データセット、およびモデルは、https://learning-from-peers.github.io/で入手できます。

要約(オリジナル)

Large Reasoning Models (LRMs) have the ability to self-correct even when they make mistakes in their reasoning paths. However, our study reveals that when the reasoning process starts with a short but poor beginning, it becomes difficult for the model to recover. We refer to this phenomenon as the ‘Prefix Dominance Trap’. Inspired by psychological findings that peer interaction can promote self-correction without negatively impacting already accurate individuals, we propose **Learning from Peers** (LeaP) to address this phenomenon. Specifically, every tokens, each reasoning path summarizes its intermediate reasoning and shares it with others through a routing mechanism, enabling paths to incorporate peer insights during inference. However, we observe that smaller models sometimes fail to follow summarization and reflection instructions effectively. To address this, we fine-tune them into our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025, and GPQA Diamond show that LeaP provides substantial improvements. For instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis reveals LeaP’s robust error correction by timely peer insights, showing strong error tolerance and handling varied task difficulty. LeaP marks a milestone by enabling LRMs to collaborate during reasoning. Our code, datasets, and models are available at https://learning-from-peers.github.io/ .

arxiv情報

著者 Tongxu Luo,Wenyu Du,Jiaxi Bi,Stephen Chung,Zhengyang Tang,Hao Yang,Min Zhang,Benyou Wang
発行日 2025-05-12 17:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Learning from Peers in Reasoning Models はコメントを受け付けていません

Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)の幻覚を減らすための一般的な戦略です。
強化学習(RL)により、検索機能をアクティブにすることによりLLMが検索エージェントとして機能する可能性がありますが、既存の機能は内部知識を十分に活用していないことがよくあります。
これにより、冗長な検索、潜在的な有害な知識の対立、および推論潜時の増加につながる可能性があります。
これらの制限に対処するために、最適な検索タイミングを識別し、パラメトリック(内部)および検索(外部)の知識を相乗的に統合することができる効率的で適応的な検索エージェントが緊急に必要です。
このホワイトペーパーでは、強化された内部外側知識相乗推論エージェント(IKEA)を紹介します。これは、独自の知識の境界を識別し、内部知識の利用を優先し、内部知識が不十分であるとみなされた場合にのみ外部検索に頼ることができます。
これは、新しい知識に基づいた認識報酬機能と知識に基づいた認識トレーニングデータセットを使用して達成されます。
これらは、内部知識の相乗志向のRL向けに設計されており、モデルに正確な回答を提供し、不必要な検索を最小限に抑え、自分の知識が不足している場合に適切な外部検索を奨励します。
複数の知識推論タスクにわたる評価は、IKEAがベースラインメソッドを大幅に上回り、検索頻度を大幅に減らし、堅牢な一般化機能を示すことを示しています。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a common strategy to reduce hallucinations in Large Language Models (LLMs). While reinforcement learning (RL) can enable LLMs to act as search agents by activating retrieval capabilities, existing ones often underutilize their internal knowledge. This can lead to redundant retrievals, potential harmful knowledge conflicts, and increased inference latency. To address these limitations, an efficient and adaptive search agent capable of discerning optimal retrieval timing and synergistically integrating parametric (internal) and retrieved (external) knowledge is in urgent need. This paper introduces the Reinforced Internal-External Knowledge Synergistic Reasoning Agent (IKEA), which could indentify its own knowledge boundary and prioritize the utilization of internal knowledge, resorting to external search only when internal knowledge is deemed insufficient. This is achieved using a novel knowledge-boundary aware reward function and a knowledge-boundary aware training dataset. These are designed for internal-external knowledge synergy oriented RL, incentivizing the model to deliver accurate answers, minimize unnecessary retrievals, and encourage appropriate external searches when its own knowledge is lacking. Evaluations across multiple knowledge reasoning tasks demonstrate that IKEA significantly outperforms baseline methods, reduces retrieval frequency significantly, and exhibits robust generalization capabilities.

arxiv情報

著者 Ziyang Huang,Xiaowei Yuan,Yiming Ju,Jun Zhao,Kang Liu
発行日 2025-05-12 14:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent はコメントを受け付けていません

NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT

要約

Semeval-2025タスク3(MU-Shroom)は、複数の言語でさまざまな大手言語モデル(LLM)によって生成されるコンテンツの幻覚の検出に焦点を当てています。
このタスクには、幻覚の存在を特定するだけでなく、特定の発生を特定することも含まれます。
この課題に取り組むために、この研究では、修正されたRefcheckerと修正されたSelfCheckgptの2つの方法を紹介します。
修正されたRefcheckerは、迅速な事実検証を参照に統合し、単一の外部知識ソースではなく、クレームベースのテストとして構成します。
修正されたSelfCheckGPTには、外部の知識が組み込まれて、内部知識への依存を克服します。
さらに、両方の方法の元のプロンプトデザインが強化され、LLMが生成したテキスト内の幻覚的な単語を識別します。
実験結果は、アプローチの有効性を示し、さまざまな言語での幻覚を検出する際にテストデータセットで高いランキングを達成し、平均IOUは0.5310、平均Corは0.5669です。

要約(オリジナル)

SemEval-2025 Task 3 (Mu-SHROOM) focuses on detecting hallucinations in content generated by various large language models (LLMs) across multiple languages. This task involves not only identifying the presence of hallucinations but also pinpointing their specific occurrences. To tackle this challenge, this study introduces two methods: modified RefChecker and modified SelfCheckGPT. The modified RefChecker integrates prompt-based factual verification into References, structuring them as claim-based tests rather than single external knowledge sources. The modified SelfCheckGPT incorporates external knowledge to overcome its reliance on internal knowledge. In addition, both methods’ original prompt designs are enhanced to identify hallucinated words within LLM-generated texts. Experimental results demonstrate the effectiveness of the approach, achieving a high ranking on the test dataset in detecting hallucinations across various languages, with an average IoU of 0.5310 and an average COR of 0.5669.

arxiv情報

著者 Jiaying Hong,Thanet Markchom,Jianfei Xu,Tong Wu,Huizhi Liang
発行日 2025-05-12 14:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT はコメントを受け付けていません

Time-Series Foundation AI Model for Value-at-Risk Forecasting

要約

この研究は、リターンの左尾の分位数を本質的に予測するリスクの付加価値(VAR)のタイムシリーズファンデーションAIモデルのパフォーマンスを分析した最初の研究です。
多様なデータセットで事前に訓練されたファンデーションモデルは、最小限のデータを使用してゼロショット設定で適用することができます。
GoogleのTIMESFMモデルを、SP 100インデックスとその構成要素からの19年間の毎日のリターンを使用して、GARCHおよび一般化された自己回帰スコア(GAS)を含む従来のパラメトリックおよびノンパラメトリックモデルと比較します。
8.5年以上のサンプル外データを使用したバックテストは、微調整された基礎モデルが、実際に予想される比率で従来の方法よりも一貫して優れていることを示しています。
分位スコア損失関数の場合、それは最高の計量経済学モデルであるガスと同等に機能します。
全体として、ファンデーションモデルは、0.01、0.025、0.05、および0.1の分位予測にわたる最高のパフォーマーとしてランク付けされています。
微調整は精度を大幅に向上させ、ゼロショットの使用がVARに最適ではないことを示しています。

要約(オリジナル)

This study is the first to analyze the performance of a time-series foundation AI model for Value-at-Risk (VaR), which essentially forecasts the left-tail quantiles of returns. Foundation models, pre-trained on diverse datasets, can be applied in a zero-shot setting with minimal data or further improved through finetuning. We compare Google’s TimesFM model to conventional parametric and non-parametric models, including GARCH and Generalized Autoregressive Score (GAS), using 19 years of daily returns from the SP 100 index and its constituents. Backtesting with over 8.5 years of out-of-sample data shows that the fine-tuned foundation model consistently outperforms traditional methods in actual-over-expected ratios. For the quantile score loss function, it performs comparably to the best econometric model, GAS. Overall, the foundation model ranks as the best or among the top performers across the 0.01, 0.025, 0.05, and 0.1 quantile forecasting. Fine-tuning significantly improves accuracy, showing that zero-shot use is not optimal for VaR.

arxiv情報

著者 Anubha Goel,Puneet Pasricha,Juho Kanniainen
発行日 2025-05-12 14:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-fin.RM | Time-Series Foundation AI Model for Value-at-Risk Forecasting はコメントを受け付けていません

Characterizing the Investigative Methods of Fictional Detectives with Large Language Models

要約

複雑な物語構造とキャラクター主導のストーリーテリングによって定義されたジャンルである探偵フィクションは、文学理論を自動化された物語の世代に統合することに焦点を当てた研究分野である計算のナラトロジーのユニークな課題を提示します。
伝統的な文学研究は、架空の探偵の方法と原型に関する深い洞察を提供していますが、これらの分析はしばしば限られた数のキャラクターに焦点を当てており、物語の生成方法を導くために使用できるユニークな特性の抽出に必要なスケーラビリティを欠いています。
この論文では、架空の探偵の調査方法を体系的に特徴付けるためのAI駆動型のアプローチを提示します。
マルチフェーズワークフローでは、15の大手言語モデル(LLM)の機能を調査して、架空の探偵の特徴的な調査特性を抽出、合成、検証します。
このアプローチは、7人の象徴的な探偵の多様なセットでテストされました – Hercule Poirot、Sherlock Holmes、William Murdoch、Columbo、Father Brown、Miss Marple、Auguste Dupinは、各キャラクターを定義する独特の調査スタイルを捉えています。
特定された特性は、既存の文学分析に対して検証され、逆識別フェーズでさらにテストされ、91.43%の全体的な精度を達成し、各探偵の特徴的な調査アプローチをキャプチャする方法の有効性を実証しました。
この作業は、AI駆動型のインタラクティブなストーリーテリングと自動化された物語生成の潜在的なアプリケーションを備えた、キャラクター分析のためのスケーラブルなフレームワークを提供することにより、計算のナラトロジーのより広い分野に貢献します。

要約(オリジナル)

Detective fiction, a genre defined by its complex narrative structures and character-driven storytelling, presents unique challenges for computational narratology, a research field focused on integrating literary theory into automated narrative generation. While traditional literary studies have offered deep insights into the methods and archetypes of fictional detectives, these analyses often focus on a limited number of characters and lack the scalability needed for the extraction of unique traits that can be used to guide narrative generation methods. In this paper, we present an AI-driven approach for systematically characterizing the investigative methods of fictional detectives. Our multi-phase workflow explores the capabilities of 15 Large Language Models (LLMs) to extract, synthesize, and validate distinctive investigative traits of fictional detectives. This approach was tested on a diverse set of seven iconic detectives – Hercule Poirot, Sherlock Holmes, William Murdoch, Columbo, Father Brown, Miss Marple, and Auguste Dupin – capturing the distinctive investigative styles that define each character. The identified traits were validated against existing literary analyses and further tested in a reverse identification phase, achieving an overall accuracy of 91.43%, demonstrating the method’s effectiveness in capturing the distinctive investigative approaches of each detective. This work contributes to the broader field of computational narratology by providing a scalable framework for character analysis, with potential applications in AI-driven interactive storytelling and automated narrative generation.

arxiv情報

著者 Edirlei Soares de Lima,Marco A. Casanova,Bruno Feijó,Antonio L. Furtado
発行日 2025-05-12 14:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Characterizing the Investigative Methods of Fictional Detectives with Large Language Models はコメントを受け付けていません

MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining

要約

推論のために生まれた大規模な言語モデルであるMIMO-7Bを提示し、トレーニング前とトレーニング後の両方の段階で最適化します。
トレーニング前に、データの前処理パイプラインを強化し、3段階のデータミキシング戦略を採用して、基本モデルの推論の可能性を強化します。
MIMO-7Bベースは、25兆トークンで事前に訓練されており、パフォーマンスの向上と加速推論速度のための追加のマルチトークン予測目標があります。
トレーニング後に、130kの検証可能な数学とプログラミングの問題のデータセットを補強学習のためのプログラミングの問題をキュレートし、テスト決定駆動型のコード報酬制度を統合して、まばらな報酬問題を軽減し、トレーニングを安定させるための戦略的データのリサンプリングを採用します。
広範な評価によると、MIMO-7Bベースは例外的な推論の可能性を備えており、さらに大きな32Bモデルを上回っています。
最終的なRLチューニングモデルであるMIMO-7B-RLは、数学、コード、および一般的な推論タスクで優れたパフォーマンスを実現し、Openai O1-Miniのパフォーマンスを超えています。
モデルチェックポイントは、https://github.com/xiaomimimo/mimoで入手できます。

要約(オリジナル)

We present MiMo-7B, a large language model born for reasoning tasks, with optimization across both pre-training and post-training stages. During pre-training, we enhance the data preprocessing pipeline and employ a three-stage data mixing strategy to strengthen the base model’s reasoning potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional Multi-Token Prediction objective for enhanced performance and accelerated inference speed. During post-training, we curate a dataset of 130K verifiable mathematics and programming problems for reinforcement learning, integrating a test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and employing strategic data resampling to stabilize training. Extensive evaluations show that MiMo-7B-Base possesses exceptional reasoning potential, outperforming even much larger 32B models. The final RL-tuned model, MiMo-7B-RL, achieves superior performance on mathematics, code and general reasoning tasks, surpassing the performance of OpenAI o1-mini. The model checkpoints are available at https://github.com/xiaomimimo/MiMo.

arxiv情報

著者 Xiaomi LLM-Core Team,:,Bingquan Xia,Bowen Shen,Cici,Dawei Zhu,Di Zhang,Gang Wang,Hailin Zhang,Huaqiu Liu,Jiebao Xiao,Jinhao Dong,Liang Zhao,Peidian Li,Peng Wang,Shihua Yu,Shimao Chen,Weikun Wang,Wenhan Ma,Xiangwei Deng,Yi Huang,Yifan Song,Zihan Jiang,Bowen Ye,Can Cai,Chenhong He,Dong Zhang,Duo Zhang,Guoan Wang,Hao Tian,Haochen Zhao,Heng Qu,Hongshen Xu,Jun Shi,Kainan Bao,QingKai Fang,Kang Zhou,Kangyang Zhou,Lei Li,Menghang Zhu,Nuo Chen,Qiantong Wang,Shaohui Liu,Shicheng Li,Shuhao Gu,Shuhuai Ren,Shuo Liu,Sirui Deng,Weiji Zhuang,Weiwei Lv,Wenyu Yang,Xin Zhang,Xing Yong,Xing Zhang,Xingchen Song,Xinzhe Xu,Xu Wang,Yihan Yan,Yu Tu,Yuanyuan Tian,Yudong Wang,Yue Yu,Zhenru Lin,Zhichao Song,Zihao Yue
発行日 2025-05-12 14:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining はコメントを受け付けていません

Concept-Level Explainability for Auditing & Steering LLM Responses

要約

大規模な言語モデル(LLM)が広く展開されると、安全性と整合性に関する懸念が高まります。
バイアスの軽減や脱獄に対する防御など、LLMの動作を操縦するアプローチは、迅速な部分のどの部分がモデルの出力の特定の側面に影響するかを特定することです。
トークンレベルの帰属方法は有望な解決策を提供しますが、テキスト生成に苦労しており、LLM応答全体の根本的なセマンティクスではなく、出力内の各トークンの存在を個別に説明しています。
概念を識別するモデルに依存しない、コンセプトレベルの説明可能性方法、つまりプロンプトの意味的にリッチなトークンであるConcectxを紹介し、出力のセマンティックな類似性に基づいて重要性を割り当てます。
現在のトークンレベルのメソッドとは異なり、ConceptXは、インプレーストークンの交換を通じてコン​​テキストの完全性を維持し、柔軟な説明目標など、性別バイアスをサポートします。
ConceptXは、再訓練を必要とせずに、感情をシフトしてLLM応答の有害性を減らすためにプロンプ​​トを変更することにより、バイアスのソースを明らかにすることにより、監査とステアリングの両方を有効にします。
3つのLLMにわたって、ConceptXは、忠実さと人間の整合の両方でトークンシャップのようなトークンレベルの方法を上回ります。
ステアリングタスクは、ランダム編集で0.131に対して0.252のセンチメントシフトを増加させ、攻撃の成功率を0.463から0.242に増やし、アウトパフォーマンスの帰属と言い換えベースラインを上回ります。
迅速なエンジニアリングと自己探求方法は、より安全な応答をもたらすことがありますが、ConceptXはLLMの安全性とアラインメントを改善するための透明で忠実な代替手段を提供し、LLMの動作を導く際の帰属に基づいた説明可能性の実用的な価値を実証します。

要約(オリジナル)

As large language models (LLMs) become widely deployed, concerns about their safety and alignment grow. An approach to steer LLM behavior, such as mitigating biases or defending against jailbreaks, is to identify which parts of a prompt influence specific aspects of the model’s output. Token-level attribution methods offer a promising solution, but still struggle in text generation, explaining the presence of each token in the output separately, rather than the underlying semantics of the entire LLM response. We introduce ConceptX, a model-agnostic, concept-level explainability method that identifies the concepts, i.e., semantically rich tokens in the prompt, and assigns them importance based on the outputs’ semantic similarity. Unlike current token-level methods, ConceptX also offers to preserve context integrity through in-place token replacements and supports flexible explanation goals, e.g., gender bias. ConceptX enables both auditing, by uncovering sources of bias, and steering, by modifying prompts to shift the sentiment or reduce the harmfulness of LLM responses, without requiring retraining. Across three LLMs, ConceptX outperforms token-level methods like TokenSHAP in both faithfulness and human alignment. Steering tasks boost sentiment shift by 0.252 versus 0.131 for random edits and lower attack success rates from 0.463 to 0.242, outperforming attribution and paraphrasing baselines. While prompt engineering and self-explaining methods sometimes yield safer responses, ConceptX offers a transparent and faithful alternative for improving LLM safety and alignment, demonstrating the practical value of attribution-based explainability in guiding LLM behavior.

arxiv情報

著者 Kenza Amara,Rita Sevastjanova,Mennatallah El-Assady
発行日 2025-05-12 14:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Concept-Level Explainability for Auditing & Steering LLM Responses はコメントを受け付けていません

Unbiased Evaluation of Large Language Models from a Causal Perspective

要約

ベンチマークの汚染は、LLM評価コミュニティで大きな懸念事項となっています。
前のエージェントとしてのエージェントは、質問の生成にエージェントを関与させることにより、この問題に対処します。
彼らの成功にもかかわらず、エージェントとしてのエージェントとしてのバイアスは、ほとんど未踏のままです。
この論文では、評価バイアスの理論的定式化を提示し、偏りのない評価プロトコルの設計に関する貴重な洞察を提供します。
さらに、エージェントとしてのエージェントとしての2つのタイプのバイアスを、慎重に設計されたエージェントとしてのエージェントとしての最小限のエージェントのセットアップで慎重に設計されたプローブタスクを識別します。
これらの問題に対処するために、偏見のない評価者を提案します。これは、LLMS.Extiveの実験のより包括的で公平で解釈可能な評価を提供する評価プロトコルであり、現在のLLMの改善の重要な余地を明らかにしています。
さらに、公平な評価者がベンチマーク汚染の強力な証拠を提供するだけでなく、解釈可能な評価結果も提供することを実証します。

要約(オリジナル)

Benchmark contamination has become a significant concern in the LLM evaluation community. Previous Agents-as-an-Evaluator address this issue by involving agents in the generation of questions. Despite their success, the biases in Agents-as-an-Evaluator methods remain largely unexplored. In this paper, we present a theoretical formulation of evaluation bias, providing valuable insights into designing unbiased evaluation protocols. Furthermore, we identify two type of bias in Agents-as-an-Evaluator through carefully designed probing tasks on a minimal Agents-as-an-Evaluator setup. To address these issues, we propose the Unbiased Evaluator, an evaluation protocol that delivers a more comprehensive, unbiased, and interpretable assessment of LLMs.Extensive experiments reveal significant room for improvement in current LLMs. Additionally, we demonstrate that the Unbiased Evaluator not only offers strong evidence of benchmark contamination but also provides interpretable evaluation results.

arxiv情報

著者 Meilin Chen,Jian Tian,Liang Ma,Di Xie,Weijie Chen,Jiang Zhu
発行日 2025-05-12 14:34:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Unbiased Evaluation of Large Language Models from a Causal Perspective はコメントを受け付けていません

Diffused Responsibility: Analyzing the Energy Consumption of Generative Text-to-Audio Diffusion Models

要約

テキストからオーディオモデルは最近、テキストの説明からサウンドを生成するための強力なテクノロジーとして浮上しています。
しかし、彼らの高い計算的要求は、エネルギー消費と環境への影響に関する懸念を引き起こします。
このホワイトペーパーでは、7つの最先端のテキストからオーディオへの拡散ベースの生成モデルのエネルギー使用量の分析を実施し、生成パラメーターの変動が推論時間のエネルギー消費にどの程度影響するかを評価します。
また、選択したすべてのモデルでパレート最適ソリューションを考慮することにより、オーディオ品質とエネルギー消費の間の最適なバランスを特定することも目指しています。
私たちの調査結果は、パフォーマンスと環境への影響の間のトレードオフに関する洞察を提供し、より効率的な生成オーディオモデルの開発に貢献しています。

要約(オリジナル)

Text-to-audio models have recently emerged as a powerful technology for generating sound from textual descriptions. However, their high computational demands raise concerns about energy consumption and environmental impact. In this paper, we conduct an analysis of the energy usage of 7 state-of-the-art text-to-audio diffusion-based generative models, evaluating to what extent variations in generation parameters affect energy consumption at inference time. We also aim to identify an optimal balance between audio quality and energy consumption by considering Pareto-optimal solutions across all selected models. Our findings provide insights into the trade-offs between performance and environmental impact, contributing to the development of more efficient generative audio models.

arxiv情報

著者 Riccardo Passoni,Francesca Ronchini,Luca Comanducci,Romain Serizel,Fabio Antonacci
発行日 2025-05-12 14:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Diffused Responsibility: Analyzing the Energy Consumption of Generative Text-to-Audio Diffusion Models はコメントを受け付けていません

Bang for the Buck: Vector Search on Cloud CPUs

要約

ベクトルデータベースは、高次元ベクトルの効率的なクエリをサポートする新しいタイプのシステムとして浮上しています。
これらの多くは、クラウド内のサービスとしてデータベースを提供しています。
ただし、利用可能なCPUの多様性とCPU全体のベクトル検索ベンチマークの欠如により、ユーザーを選択することは困難です。
この研究では、クラウドで利用可能なCPUマイクロアーキテクチャは、ベクター検索シナリオ間で著しく異なる機能を実行することを示しています。
たとえば、Float32ベクターのIVFインデックスでは、AMDのZen4は、IntelのSapphire Rapidsと比較して1秒あたり3倍のクエリ(QPS)を提供しますが、HNSWインデックスではテーブルがターンします。
ただし、1ドルあたりのクエリの数(QP $)を見ると、Graviton3は、Graviton4を超えても、ほとんどのインデックスと量子化設定に最適なオプションです(表1)。
この作業により、ベクトル検索システムを展開するときに、ユーザーが最高の「バックのためのバン」を取得することを導くことを望んでいます。

要約(オリジナル)

Vector databases have emerged as a new type of systems that support efficient querying of high-dimensional vectors. Many of these offer their database as a service in the cloud. However, the variety of available CPUs and the lack of vector search benchmarks across CPUs make it difficult for users to choose one. In this study, we show that CPU microarchitectures available in the cloud perform significantly differently across vector search scenarios. For instance, in an IVF index on float32 vectors, AMD’s Zen4 gives almost 3x more queries per second (QPS) compared to Intel’s Sapphire Rapids, but for HNSW indexes, the tables turn. However, when looking at the number of queries per dollar (QP$), Graviton3 is the best option for most indexes and quantization settings, even over Graviton4 (Table 1). With this work, we hope to guide users in getting the best ‘bang for the buck’ when deploying vector search systems.

arxiv情報

著者 Leonardo Kuffo,Peter Boncz
発行日 2025-05-12 14:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Bang for the Buck: Vector Search on Cloud CPUs はコメントを受け付けていません