WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

要約

GPT-4O-Audioなどのエンドツーエンドの音声対話モデルは、最近、音声領域で大きな注目を集めています。
ただし、話し言葉モデルの会話パフォーマンスの評価は、ほとんど見落とされています。
これは主に、ChatGPTなどのテキストベースの言語モデルを使用して簡単に測定できない非テキスト情報を豊富に伝えるインテリジェントなチャットボットによるものです。
このギャップに対処するために、音声入力を使用して音声ダイアログシステムのIQとEQの両方を評価できるオーディオ言語モデルに基づく報酬フィードバックモデルであるWavrewardを提案します。
具体的には、1)オーディオ言語モデルに基づいて、Wavrewardには、トレーニング後の深い推論プロセスと非線形報酬メカニズムが組み込まれています。
補強学習アルゴリズムを介してマルチサンプルフィードバックを利用することにより、話し言葉モデルに合わせた特殊な評価者を構築します。
2)Wavrewardのトレーニングに使用される優先データセットであるChatreward-30Kを紹介します。
ChatReward-30Kには、話し言葉モデルの理解と生成の側面の両方が含まれています。
これらのシナリオには、テキストベースのチャット、9つの音響チャットの属性、暗黙のチャットなど、さまざまなタスクに至ります。
Wavrewardは、複数の音声ダイアログシナリオにわたって以前の最先端の評価モデルを上回り、QWEN2.5-OMNIについての客観的精度で55.1 $ \%$ $ $ $ 91.5 $ \%$から大幅に改善します。
主観的なA/Bテストでは、Wavrewardは83 $ \%$のマージンもリードしています。
包括的なアブレーション研究は、Wavrewardの各コンポーネントの必要性を確認しています。
すべてのデータとコードは、論文が受け入れられた後、https://github.com/jishengpeng/wavrewardで公開されます。

要約(オリジナル)

End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models’ conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1$\%$ to 91.5$\%$. In subjective A/B testing, WavReward also leads by a margin of 83$\%$. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.

arxiv情報

著者 Shengpeng Ji,Tianle Liang,Yangzhuo Li,Jialong Zuo,Minghui Fang,Jinzheng He,Yifu Chen,Zhengqing Liu,Ziyue Jiang,Xize Cheng,Siqi Zheng,Jin Xu,Junyang Lin,Zhou Zhao
発行日 2025-05-14 16:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | WavReward: Spoken Dialogue Models With Generalist Reward Evaluators はコメントを受け付けていません

Learning Long-Context Diffusion Policies via Past-Token Prediction

要約

多くのロボットタスクにとって、観察とアクションの長いシーケンスにわたる推論が不可欠です。
しかし、デモンストレーションから効果的なロングコンテキストポリシーを学ぶことは依然として困難です。
コンテキストの長さが増加すると、メモリの需要が高まるため、トレーニングはますます高くなり、ポリシーのパフォーマンスは、偽の相関の結果として多くの場合劣化します。
最近の方法は、通常、コンテキストの長さを切り捨て、その後の決定に重要な履歴情報を破棄することにより、これらの問題を回避します。
この論文では、過去の情報の保持を明示的に正規化する代替アプローチを提案します。
最初に、模倣学習の模倣問題を再検討し、最近の拡散ポリシーで反対の課題を特定します。以前の行動を過剰に依存するのではなく、過去と将来の行動の間の本質的な依存関係をキャプチャできないことがよくあります。
これに対処するために、過去のトークン予測(PTP)を紹介します。これは、ポリシーが将来のアクショントークンと一緒に過去のアクショントークンを予測することを学ぶ補助タスクです。
この正則化は、視覚的表現への依存を最小限に抑えて、ポリシーヘッドの時間モデリングを大幅に改善します。
この観察結果に基づいて、マルチステージトレーニング戦略をさらに紹介します。短いコンテキストで視覚エンコーダーを事前トレーニングし、キャッシュされた長いコンテキスト埋め込みを使用してポリシーヘッドを微調整します。
この戦略は、メモリと計算オーバーヘッドを大幅に削減しながら、PTPの利点を維持します。
最後に、PTPをテスト時に自己検証メカニズムに拡張し、推論中の過去のアクションと一致する候補者を採点および選択できるようにします。
4つの現実世界と6つのシミュレートされたタスクにわたる実験は、提案された方法が長いコンテキスト拡散ポリシーのパフォーマンスを3倍に改善し、ポリシートレーニングを10倍以上加速することを示しています。

要約(オリジナル)

Reasoning over long sequences of observations and actions is essential for many robotic tasks. Yet, learning effective long-context policies from demonstrations remains challenging. As context length increases, training becomes increasingly expensive due to rising memory demands, and policy performance often degrades as a result of spurious correlations. Recent methods typically sidestep these issues by truncating context length, discarding historical information that may be critical for subsequent decisions. In this paper, we propose an alternative approach that explicitly regularizes the retention of past information. We first revisit the copycat problem in imitation learning and identify an opposite challenge in recent diffusion policies: rather than over-relying on prior actions, they often fail to capture essential dependencies between past and future actions. To address this, we introduce Past-Token Prediction (PTP), an auxiliary task in which the policy learns to predict past action tokens alongside future ones. This regularization significantly improves temporal modeling in the policy head, with minimal reliance on visual representations. Building on this observation, we further introduce a multistage training strategy: pre-train the visual encoder with short contexts, and fine-tune the policy head using cached long-context embeddings. This strategy preserves the benefits of PTP while greatly reducing memory and computational overhead. Finally, we extend PTP into a self-verification mechanism at test time, enabling the policy to score and select candidates consistent with past actions during inference. Experiments across four real-world and six simulated tasks demonstrate that our proposed method improves the performance of long-context diffusion policies by 3x and accelerates policy training by more than 10x.

arxiv情報

著者 Marcel Torne,Andy Tang,Yuejiang Liu,Chelsea Finn
発行日 2025-05-14 17:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning Long-Context Diffusion Policies via Past-Token Prediction はコメントを受け付けていません

Don’t be lazy: CompleteP enables compute-efficient deep transformers

要約

さまざまなパラメーター化を使用する場合、LLMトレーニングの計算効率、つまりモデルサイズが変更されるときにモデルとオプティマイザーハイパーパラメーター(HPS)を調整するためのルールを研究します。
一部のパラメーター化は、モデルの深さの変化にわたって最適なベースHP(学習率など)を転送できないため、実務家はこれらのHPがスケールアップ(高価)に再調整するか、再調整が法外な場合に最適なトレーニングを受け入れる必要があります。
HP転送を達成した場合でも、レイヤーが線形化に近い特徴のみを学習し、深さと非線形性の効果的な使用を妨げる怠zyな学習体制にパラメーター化が存在する可能性があることを示す理論を開発します。
最後に、すべてのレイヤーで深さのHP転送と怠zyな学習の両方を達成するCompletePと呼ばれるパラメーター化を特定して採用します。
CompletEPにより、より広い範囲のモデル幅/深度比が計算効率の良いままで、さまざまなハードウェア設定と運用コンテキストに適したロック解除シェイプを使用することができます。
さらに、CompletePは、以前の最先端で12〜34%の計算効率の改善を可能にします。

要約(オリジナル)

We study compute efficiency of LLM training when using different parameterizations, i.e., rules for adjusting model and optimizer hyperparameters (HPs) as model size changes. Some parameterizations fail to transfer optimal base HPs (such as learning rate) across changes in model depth, requiring practitioners to either re-tune these HPs as they scale up (expensive), or accept sub-optimal training when re-tuning is prohibitive. Even when they achieve HP transfer, we develop theory to show parameterizations may still exist in the lazy learning regime where layers learn only features close to their linearization, preventing effective use of depth and nonlinearity. Finally, we identify and adopt the parameterization we call CompleteP that achieves both depth-wise HP transfer and non-lazy learning in all layers. CompleteP enables a wider range of model width/depth ratios to remain compute-efficient, unlocking shapes better suited for different hardware settings and operational contexts. Moreover, CompleteP enables 12-34% compute efficiency improvements over the prior state-of-the-art.

arxiv情報

著者 Nolan Dey,Bin Claire Zhang,Lorenzo Noci,Mufan Li,Blake Bordelon,Shane Bergsma,Cengiz Pehlevan,Boris Hanin,Joel Hestness
発行日 2025-05-14 17:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Don’t be lazy: CompleteP enables compute-efficient deep transformers はコメントを受け付けていません

Public Constitutional AI

要約

私たちはますますAI当局の力にさらされています。
AIの決定が避けられないようになり、ヘルスケア、教育、法律などのドメインを入力すると、重要な質問に直面しなければなりません。
このエッセイは、AIの正当性を確保するために、AIシステムの設計と制約に一般の人々を引き付ける方法が必要であり、これらのテクノロジーがコミュニティの共有値を反映するようにする方法が必要であると主張しています。
人類によって提案された憲法AIは、この目標への一歩を表しており、AIの民主的支配のためのモデルを提供します。
ただし、AIモデルへの明示的な原則を強調することに対する憲法上のAIのコミットメントは、透明性と説明責任を向上させますが、2つの重要な側面には不足しています。個々のAIの決定の不透明度に対処し、真の民主的な正当性を促進します。
これらの制限を克服するために、このエッセイは「公共憲法AI」を提案しています。
このアプローチは、一般市民を含む多様な利害関係者が、AIの開発を導く原則について審議する参加型プロセスを想定しています。
結果として生じる「AI憲法」は、一般の人々にAIガバナンスを根付かせて、一般的な著者の正当性を運びます。
さらに、エッセイは「AI裁判所」を「AIの判例法」を開発することを提案し、AIトレーニングにおける憲法原則を運用するための具体的な例を提供します。
この進化する憲法原則と判例法の組み合わせは、AIガバナンスを公共の価値によりより敏感にすることを目的としています。
審議的な民主的プロセスにおいてAIガバナンスを根付かせることにより、公共憲法AIは、公共の利益との整合を確保しながら、ますます強力なAIシステムによってもたらされる独自の課題に対処するために、自動化された当局を真の民主的な正当性に吹き込む道を提供します。

要約(オリジナル)

We are increasingly subjected to the power of AI authorities. As AI decisions become inescapable, entering domains such as healthcare, education, and law, we must confront a vital question: how can we ensure AI systems have the legitimacy necessary for effective governance? This essay argues that to secure AI legitimacy, we need methods that engage the public in designing and constraining AI systems, ensuring these technologies reflect the community’s shared values. Constitutional AI, proposed by Anthropic, represents a step towards this goal, offering a model for democratic control of AI. However, while Constitutional AI’s commitment to hardcoding explicit principles into AI models enhances transparency and accountability, it falls short in two crucial aspects: addressing the opacity of individual AI decisions and fostering genuine democratic legitimacy. To overcome these limitations, this essay proposes ‘Public Constitutional AI.’ This approach envisions a participatory process where diverse stakeholders, including ordinary citizens, deliberate on the principles guiding AI development. The resulting ‘AI Constitution’ would carry the legitimacy of popular authorship, grounding AI governance in the public will. Furthermore, the essay proposes ‘AI Courts’ to develop ‘AI case law,’ providing concrete examples for operationalizing constitutional principles in AI training. This evolving combination of constitutional principles and case law aims to make AI governance more responsive to public values. By grounding AI governance in deliberative democratic processes, Public Constitutional AI offers a path to imbue automated authorities with genuine democratic legitimacy, addressing the unique challenges posed by increasingly powerful AI systems while ensuring their alignment with the public interest.

arxiv情報

著者 Gilad Abiri
発行日 2025-05-14 17:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Public Constitutional AI はコメントを受け付けていません

Activation Steering in Neural Theorem Provers

要約

大規模な言語モデル(LLMS)は、Leanのようなプルーフアシスタントを使用して正式な定理を証明することで有望を示しています。
ただし、現在の最先端の言語モデルは、実務家がさまざまなサンプリング手法を使用してLLMS機能を改善することを導く証明の次のステップを予測するのに苦労しています。
LLMは正しい戦術を予測できることを観察します。
ただし、候補戦術のセット内で適切にランキングする際の課題に直面しており、全体的な選択プロセスに影響します。
このハードルを克服するために、アクティベーションステアリングを使用してLLMS応答をガイドして、推論時の世代を改善します。
我々の結果は、アクティベーションステアリングが、特にリソースに制約のある環境で価値があるLLMの定理証明能力を強化するための特殊な微調整の有望な軽量の代替品を提供することを示唆しています。

要約(オリジナル)

Large Language Models (LLMs) have shown promise in proving formal theorems using proof assistants like Lean. However, current state of the art language models struggles to predict next step in proofs leading practitioners to use different sampling techniques to improve LLMs capabilities. We observe that the LLM is capable of predicting the correct tactic; however, it faces challenges in ranking it appropriately within the set of candidate tactics, affecting the overall selection process. To overcome this hurdle, we use activation steering to guide LLMs responses to improve the generations at the time of inference. Our results suggest that activation steering offers a promising lightweight alternative to specialized fine-tuning for enhancing theorem proving capabilities in LLMs, particularly valuable in resource-constrained environments.

arxiv情報

著者 Shashank Kirtania
発行日 2025-05-14 17:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Activation Steering in Neural Theorem Provers はコメントを受け付けていません

Ethics and Persuasion in Reinforcement Learning from Human Feedback: A Procedural Rhetorical Approach

要約

2022年以来、ChatGptやClaudeなどの生成AIチャットボットのバージョンは、人間のフィードバック(RLHF)からのRehneduction Learningと呼ばれる専門的な手法を使用して、人間のアノテーターからのフィードバックを使用して言語モデルの出力を微調整して訓練されています。
その結果、RLHFの統合により、これらの大規模な言語モデル(LLM)の出力が大幅に強化され、監視された学習のみを使用して以前のバージョンのものよりも相互作用と応答がより「人間のように」表示されました。
人間と機械で書かれたテキストの収束の増加は、透明性、信頼、バイアス、および対人関係に関連する潜在的に深刻な倫理的、社会技術的、および教育的な意味を持っています。
これらの意味を強調するために、このペーパーでは、RLHFが強化した生成AIチャットボットによって現在再形成されている中心的な手順とプロセスのいくつかの修辞分析を提示します。言語慣習、情報探索の実践、社会的関係への期待を支持します。
生成AIおよびLLMの修辞的調査は、この時点で、生成されたコンテンツの説得力に主に焦点を合わせています。
Ian Bogostの手続き的なレトリックの概念を使用して、この論文では、修辞的調査の部位をコンテンツ分析からRLHF強化LLMに組み込まれた説得の基礎メカニズムにシフトします。
そうすることで、この理論的調査は、AI主導のテクノロジーを通じて手順がどのように再ルーティングされ、覇権的な言語の使用を強化し、バイアスを永続させ、学習を永続化し、人間関係に侵入するかを考慮するAI倫理のさらなる調査のための新しい方向性を開きます。
したがって、教育者、研究者、学者、および生成AIチャットボットのユーザーの増加に興味があります。

要約(オリジナル)

Since 2022, versions of generative AI chatbots such as ChatGPT and Claude have been trained using a specialized technique called Reinforcement Learning from Human Feedback (RLHF) to fine-tune language model output using feedback from human annotators. As a result, the integration of RLHF has greatly enhanced the outputs of these large language models (LLMs) and made the interactions and responses appear more ‘human-like’ than those of previous versions using only supervised learning. The increasing convergence of human and machine-written text has potentially severe ethical, sociotechnical, and pedagogical implications relating to transparency, trust, bias, and interpersonal relations. To highlight these implications, this paper presents a rhetorical analysis of some of the central procedures and processes currently being reshaped by RLHF-enhanced generative AI chatbots: upholding language conventions, information seeking practices, and expectations for social relationships. Rhetorical investigations of generative AI and LLMs have, to this point, focused largely on the persuasiveness of the content generated. Using Ian Bogost’s concept of procedural rhetoric, this paper shifts the site of rhetorical investigation from content analysis to the underlying mechanisms of persuasion built into RLHF-enhanced LLMs. In doing so, this theoretical investigation opens a new direction for further inquiry in AI ethics that considers how procedures rerouted through AI-driven technologies might reinforce hegemonic language use, perpetuate biases, decontextualize learning, and encroach upon human relationships. It will therefore be of interest to educators, researchers, scholars, and the growing number of users of generative AI chatbots.

arxiv情報

著者 Shannon Lodoen,Alexi Orchard
発行日 2025-05-14 17:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Ethics and Persuasion in Reinforcement Learning from Human Feedback: A Procedural Rhetorical Approach はコメントを受け付けていません

WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models

要約

大規模な言語モデル(LLM)は、西洋中心の認識論と社会文化的規範を強化する方法で主に訓練および整合されており、文化的均質化につながり、世界的な文明的複数を反映する能力を制限します。
既存のベンチマークフレームワークは、文化的包括性の複雑さを見落とす硬直した閉じた形式の評価に依存しているため、このバイアスを適切にキャプチャできません。
これに対処するために、多様な世界観に対応する能力を分析することにより、LLMSのグローバルな文化的包括性(GCI)を評価するために設計されたベンチマークであるWorldveiew-Benchを紹介します。
私たちのアプローチは、Senturk et al。によって提案されたマルチプレックスの世界観に基づいています。これは、ユニプレックスモデル、文化的均質化の強化、および多様な視点を統合する多重モデルを区別します。
ワールドビューベンチは、従来のカテゴリベンチマークではなく、自由形式の生成評価を通じて、文化的偏光、代替視点の除外を測定します。
(1)コンテキストが実装された多重LLMSの2つの介入戦略を通じて、適用された多重性を実装します。ここでは、システムがマルチプレックスの原理を埋め込むと促されます。
我々の結果は、肯定的な感情へのシフト(67.7%)と文化バランスの強化に加えて、MAS実装マルチプレックスLLMSを使用して、ベースラインでの13%から94%に視点分布スコア(PDS)エントロピーの大幅な増加を示しています。
これらの発見は、LLMの文化的バイアスを緩和する際の多重認識AI評価の可能性を強調し、より包括的かつ倫理的に整合したAIシステムへの道を開いています。

要約(オリジナル)

Large Language Models (LLMs) are predominantly trained and aligned in ways that reinforce Western-centric epistemologies and socio-cultural norms, leading to cultural homogenization and limiting their ability to reflect global civilizational plurality. Existing benchmarking frameworks fail to adequately capture this bias, as they rely on rigid, closed-form assessments that overlook the complexity of cultural inclusivity. To address this, we introduce WorldView-Bench, a benchmark designed to evaluate Global Cultural Inclusivity (GCI) in LLMs by analyzing their ability to accommodate diverse worldviews. Our approach is grounded in the Multiplex Worldview proposed by Senturk et al., which distinguishes between Uniplex models, reinforcing cultural homogenization, and Multiplex models, which integrate diverse perspectives. WorldView-Bench measures Cultural Polarization, the exclusion of alternative perspectives, through free-form generative evaluation rather than conventional categorical benchmarks. We implement applied multiplexity through two intervention strategies: (1) Contextually-Implemented Multiplex LLMs, where system prompts embed multiplexity principles, and (2) Multi-Agent System (MAS)-Implemented Multiplex LLMs, where multiple LLM agents representing distinct cultural perspectives collaboratively generate responses. Our results demonstrate a significant increase in Perspectives Distribution Score (PDS) entropy from 13% at baseline to 94% with MAS-Implemented Multiplex LLMs, alongside a shift toward positive sentiment (67.7%) and enhanced cultural balance. These findings highlight the potential of multiplex-aware AI evaluation in mitigating cultural bias in LLMs, paving the way for more inclusive and ethically aligned AI systems.

arxiv情報

著者 Abdullah Mushtaq,Imran Taj,Rafay Naeem,Ibrahim Ghaznavi,Junaid Qadir
発行日 2025-05-14 17:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MA | WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models はコメントを受け付けていません

How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference

要約

大規模な言語モデル(LLM)が業界全体に広がるため、推論レベルで環境フットプリントを理解することはもはやオプションではありません。
それは不可欠です。
ただし、ほとんどの既存の研究では、独自のモデル、インフラストラクチャの変動性とオーバーヘッドを見落としている、または推論がAIの環境への影響をますます支配する場合でも、トレーニングのみに焦点を当てています。
このギャップを埋めるために、このペーパーでは、コマーシャルデータセンターに展開されている30の最先端モデルにわたってLLM推論の環境フットプリントを定量化するための新しいインフラストラクチャ対応ベンチマークフレームワークを紹介します。
当社のフレームワークでは、パブリックAPIパフォーマンスデータと、地域固有の環境乗数とハードウェア構成の統計的推論を組み合わせています。
さらに、環境コストに比べてパフォーマンスごとにモデルをランク付けするために、クロス効率データエンベロープ分析(DEA)を利用します。
私たちの結果は、O3とDeepSeek-R1が最もエネルギー集約型モデルとして出現し、長いプロンプトあたり33 WHを超え、GPT-4.1 Nanoの消費の70倍以上を消費し、Claude-3.7Sonnetがエコ効率で最高にランクされていることを示しています。
単一の短いGPT-4Oクエリは0.43 WHを消費しますが、これを7億クエリ/日にスケーリングすると、環境への大きな影響が大きくなります。
これらには、35,000の米国の家に匹敵する電力使用、120万人の年間飲酒ニーズに合った淡水蒸発、およびシカゴサイズの森林を相殺する必要がある炭素排出量が含まれます。
これらの調査結果は、成長するパラドックスを示しています。個々のクエリは効率的ですが、世界規模は不均衡なリソース消費を促進します。
私たちの研究は、LLM展開の持続可能性をベンチマークするための標準化された経験的に根拠のある方法論を提供し、AI開発と持続可能性基準における将来の環境説明責任の基盤を築きます。

要約(オリジナル)

As large language models (LLMs) spread across industries, understanding their environmental footprint at the inference level is no longer optional; it is essential. However, most existing studies exclude proprietary models, overlook infrastructural variability and overhead, or focus solely on training, even as inference increasingly dominates AI’s environmental impact. To bridge this gap, this paper introduces a novel infrastructure-aware benchmarking framework for quantifying the environmental footprint of LLM inference across 30 state-of-the-art models as deployed in commercial data centers. Our framework combines public API performance data with region-specific environmental multipliers and statistical inference of hardware configurations. We additionally utilize cross-efficiency Data Envelopment Analysis (DEA) to rank models by performance relative to environmental cost. Our results show that o3 and DeepSeek-R1 emerge as the most energy-intensive models, consuming over 33 Wh per long prompt, more than 70 times the consumption of GPT-4.1 nano, and that Claude-3.7 Sonnet ranks highest in eco-efficiency. While a single short GPT-4o query consumes 0.43 Wh, scaling this to 700 million queries/day results in substantial annual environmental impacts. These include electricity use comparable to 35,000 U.S. homes, freshwater evaporation matching the annual drinking needs of 1.2 million people, and carbon emissions requiring a Chicago-sized forest to offset. These findings illustrate a growing paradox: although individual queries are efficient, their global scale drives disproportionate resource consumption. Our study provides a standardized, empirically grounded methodology for benchmarking the sustainability of LLM deployments, laying a foundation for future environmental accountability in AI development and sustainability standards.

arxiv情報

著者 Nidhal Jegham,Marwen Abdelatti,Lassad Elmoubarki,Abdeltawab Hendawi
発行日 2025-05-14 17:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference はコメントを受け付けていません

Decoding Futures Price Dynamics: A Regularized Sparse Autoencoder for Interpretable Multi-Horizon Forecasting and Factor Discovery

要約

商品価格のボラティリティは経済的課題を生み出し、正確なマルチホリゾン予測を必要とします。
銅や原油などの商品の価格の予測は、多様な相互作用要因(マクロ経済、需要/需要、地政学など)によって複雑になります。
現在のモデルはしばしば透明性を欠いており、戦略的使用を制限しています。
このペーパーでは、正規化されたスパースオートエンコーダー(RSAE)を紹介します。これは、同時マルチホリゾンの商品価格予測と解釈可能な潜在的な市場ドライバーの発見のための深い学習フレームワークです。
RSAEは、多変量時系列を使用して、複数の視野(例:1日、1週間、1か月)で価格を予測しています。
重要なのは、潜在的なベクトル$ \ mathbf {z} $のl1正規化($ \ | \ mathbf {z} \ | _1 $)でスパースを強制し、基礎となるドライバー(例えば、需要、供給ショック)を表す学習した要因を通じて、市場ダイナミクスの標準的な説明を促進します。
エネルギーベースのモデルとまばらなコーディングから描画するRSAEは、まばらな表現を学習しながら予測精度を最適化します。
多数の指標を備えた歴史的な銅と原油のデータで評価された調査結果は、RSAEが競争力のあるマルチホリゾン予測の精度と、伝統的なブラックボックスアプローチよりも重要な利点である解釈可能な潜在スペースを介した価格ダイナミクスに関するデータ駆動型の洞察を提供していることを示しています。

要約(オリジナル)

Commodity price volatility creates economic challenges, necessitating accurate multi-horizon forecasting. Predicting prices for commodities like copper and crude oil is complicated by diverse interacting factors (macroeconomic, supply/demand, geopolitical, etc.). Current models often lack transparency, limiting strategic use. This paper presents a Regularized Sparse Autoencoder (RSAE), a deep learning framework for simultaneous multi-horizon commodity price prediction and discovery of interpretable latent market drivers. The RSAE forecasts prices at multiple horizons (e.g., 1-day, 1-week, 1-month) using multivariate time series. Crucially, L1 regularization ($\|\mathbf{z}\|_1$) on its latent vector $\mathbf{z}$ enforces sparsity, promoting parsimonious explanations of market dynamics through learned factors representing underlying drivers (e.g., demand, supply shocks). Drawing from energy-based models and sparse coding, the RSAE optimizes predictive accuracy while learning sparse representations. Evaluated on historical Copper and Crude Oil data with numerous indicators, our findings indicate the RSAE offers competitive multi-horizon forecasting accuracy and data-driven insights into price dynamics via its interpretable latent space, a key advantage over traditional black-box approaches.

arxiv情報

著者 Abhijit Gupta
発行日 2025-05-14 17:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG | Decoding Futures Price Dynamics: A Regularized Sparse Autoencoder for Interpretable Multi-Horizon Forecasting and Factor Discovery はコメントを受け付けていません

Customizing a Large Language Model for VHDL Design of High-Performance Microprocessors

要約

ハードウェア設計における大規模な言語モデル(LLM)の使用は、主にチップデザイナーの生産性を高めるツールに組み込まれていることを通じて、近年離陸しています。
2つの最も一般的な言語がVerilogとVHDLであるチップ設計のRTL仕様でのLLMの使用についてかなりの議論がありました。
LLMSとVerilog Designでの使用は、言語の人気が高いために大きな注目を集めていますが、業界での継続的な人気にもかかわらず、これまでのところVHDLにはほとんど注目されていません。
また、高性能プロセッサの設計に従事する組織の独自のニーズについては、これらの設定にAIソリューションを展開する技術についてはほとんど議論されていません。
この論文では、VHDLコードを説明する目的で、特に大規模な言語モデル(LLM)を開発する際の旅について説明します。これは、数十年の経験と高性能プロセッサ設計の資産を持つ組織で特に重要なタスクです。
私たちは、私たちのニーズに固有のテストセットをどのように開発し、ベースLLMの拡張前脱直(EPT)を実行する際にモデルを評価するためにそれらを使用した方法を示しました。
EPTモデルによって生成されたコードの説明の専門家の評価は、43%の基本モデル評価と比較して69%に増加しました。
さらに、専門家の評価者と同様のモデルを測定するために、LLM-as-a-a-a-a-a-a-a-a-a-a-a-a-judgeを開発した方法を示します。
これにより、予想される専門家の評価者評価が71%のEPTモデルの命令チューニングバージョンを含む、多数の新しいモデルを導き出して評価することになりました。
また、私たちの実験は、新しいベースモデルを使用する潜在的な使用により、この評価を85%以上に押し上げることができることを示しています。
私たちは、生成AIの世界でエキサイティングな新しい開発を使用して、ハードウェア設計LLMの品質をさらに向上させることについての議論で締めくくります。

要約(オリジナル)

The use of Large Language Models (LLMs) in hardware design has taken off in recent years, principally through its incorporation in tools that increase chip designer productivity. There has been considerable discussion about the use of LLMs in RTL specifications of chip designs, for which the two most popular languages are Verilog and VHDL. LLMs and their use in Verilog design has received significant attention due to the higher popularity of the language, but little attention so far has been given to VHDL despite its continued popularity in the industry. There has also been little discussion about the unique needs of organizations that engage in high-performance processor design, and techniques to deploy AI solutions in these settings. In this paper, we describe our journey in developing a Large Language Model (LLM) specifically for the purpose of explaining VHDL code, a task that has particular importance in an organization with decades of experience and assets in high-performance processor design. We show how we developed test sets specific to our needs and used them for evaluating models as we performed extended pretraining (EPT) of a base LLM. Expert evaluation of the code explanations produced by the EPT model increased to 69% compared to a base model rating of 43%. We further show how we developed an LLM-as-a-judge to gauge models similar to expert evaluators. This led us to deriving and evaluating a host of new models, including an instruction-tuned version of the EPT model with an expected expert evaluator rating of 71%. Our experiments also indicate that with the potential use of newer base models, this rating can be pushed to 85% and beyond. We conclude with a discussion on further improving the quality of hardware design LLMs using exciting new developments in the Generative AI world.

arxiv情報

著者 Nicolas Dupuis,Ravi Nair,Shyam Ramji,Sean McClintock,Nishant Chauhan,Priyanka Nagpal,Bart Blaner,Ken Valk,Leon Stok,Ruchir Puri
発行日 2025-05-14 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Customizing a Large Language Model for VHDL Design of High-Performance Microprocessors はコメントを受け付けていません