Language Models use Lookbacks to Track Beliefs

要約

言語モデル(LMS)は、特にそれらの信念が現実と異なる場合がある場合、キャラクターの信念をどのように表していますか?
この質問は、LMSの心の理論(TOM)能力を理解することの中心にあります。
因果的な調停と抽象化を使用して、キャラクターの信念について推論するLlama-3-70B-Instructの能力を分析します。
2つの文字がそれぞれ2つのオブジェクトの状態を個別に変更し、互いのアクションを知らない可能性がある単純なストーリーで構成されるデータセットを作成します。
私たちの調査では、ルックバックメカニズムと呼ばれる広範なアルゴリズムパターンが明らかになりました。これにより、LMは必要になったときに重要な情報を思い出すことができます。
LMは、それらに関するリファレンス情報を共同配置することにより、各キャラクターオブジェクト状態のトリプルを結合し、状態トークンの残留ストリームの低ランクのサブスペースにある注文ID(OIS)として表されます。
オブジェクトの状態に関するキャラクターの信念について尋ねられたとき、バインディングルックバックは対応する状態oiを取得し、回答ルックバックが状態トークンを取得します。
1つの文字が他の文字に表示されていることを指定するテキストを導入すると、LMが最初に観察された文字oisとの関係をコードする可視性IDを生成することがわかります。
可視性のルックバックでは、このIDは、観察されたキャラクターに関する情報を取得し、観察されるキャラクターの信念を更新するために使用されます。
私たちの仕事は、LMの信念追跡メカニズムに関する洞察を提供し、LMSでの逆エンジニアリングの推論に向けて一歩を踏み出しました。

要約(オリジナル)

How do language models (LMs) represent characters’ beliefs, especially when those beliefs may differ from reality? This question lies at the heart of understanding the Theory of Mind (ToM) capabilities of LMs. We analyze Llama-3-70B-Instruct’s ability to reason about characters’ beliefs using causal mediation and abstraction. We construct a dataset that consists of simple stories where two characters each separately change the state of two objects, potentially unaware of each other’s actions. Our investigation uncovered a pervasive algorithmic pattern that we call a lookback mechanism, which enables the LM to recall important information when it becomes necessary. The LM binds each character-object-state triple together by co-locating reference information about them, represented as their Ordering IDs (OIs) in low rank subspaces of the state token’s residual stream. When asked about a character’s beliefs regarding the state of an object, the binding lookback retrieves the corresponding state OI and then an answer lookback retrieves the state token. When we introduce text specifying that one character is (not) visible to the other, we find that the LM first generates a visibility ID encoding the relation between the observing and the observed character OIs. In a visibility lookback, this ID is used to retrieve information about the observed character and update the observing character’s beliefs. Our work provides insights into the LM’s belief tracking mechanisms, taking a step toward reverse-engineering ToM reasoning in LMs.

arxiv情報

著者 Nikhil Prakash,Natalie Shapira,Arnab Sen Sharma,Christoph Riedl,Yonatan Belinkov,Tamar Rott Shaham,David Bau,Atticus Geiger
発行日 2025-05-20 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Models use Lookbacks to Track Beliefs はコメントを受け付けていません

NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation

要約

自律的なロボットは、地上および水生の設定から空中および宇宙ドメインまで、多様な環境でナビゲートして動作する必要があります。
Rewnection Learning(RL)は、特定の自律的なロボットのトレーニングポリシーに有望を示していますが、既存のベンチマークは多くの場合、ユニークなプラットフォームに制約され、さまざまなモビリティシステム全体で一般化と公正な比較を制限しています。
このホワイトペーパーでは、多様なロボットプラットフォームと運用環境全体でRLベースのナビゲーションポリシーをトレーニングおよび評価するためのマルチドメインベンチマークであるNavbenchを紹介します。
Isaaclabに基づいて構築されたフレームワークは、タスク定義を標準化し、さまざまなロボットがアドホックタスクの再設計やカスタム評価メトリックを必要とせずにさまざまなナビゲーションの課題に取り組むことを可能にします。
私たちのベンチマークは、3つの重要な課題に対処しています。(1)現実的な環境での多様な作動方法(スラスタ、ホイール、水ベースの推進)の直接評価を可能にする統一されたクロスメディアベンチマーク。
(2)スケーラブルでモジュラー設計、シームレスなロボットタスクの交換性と再現可能なトレーニングパイプラインを促進します。
(3)衛星ロボットシミュレーター、無人の表面容器、車輪付き地上車両など、複数の現実世界ロボットへのポリシー転送が成功したことで実証された堅牢なSIMからリアルの検証。
シミュレーションと現実世界の展開の一貫性を確保することにより、Navbenchは適応可能なRLベースのナビゲーション戦略の開発を簡素化します。
そのモジュラー設計により、研究者はフレームワークの事前定義されたテンプレートに従ってカスタムロボットとタスクを簡単に統合し、幅広いアプリケーションにアクセスできるようになります。
私たちのコードはNavbenchで公開されています。

要約(オリジナル)

Autonomous robots must navigate and operate in diverse environments, from terrestrial and aquatic settings to aerial and space domains. While Reinforcement Learning (RL) has shown promise in training policies for specific autonomous robots, existing benchmarks are often constrained to unique platforms, limiting generalization and fair comparisons across different mobility systems. In this paper, we present NavBench, a multi-domain benchmark for training and evaluating RL-based navigation policies across diverse robotic platforms and operational environments. Built on IsaacLab, our framework standardizes task definitions, enabling different robots to tackle various navigation challenges without the need for ad-hoc task redesigns or custom evaluation metrics. Our benchmark addresses three key challenges: (1) Unified cross-medium benchmarking, enabling direct evaluation of diverse actuation methods (thrusters, wheels, water-based propulsion) in realistic environments; (2) Scalable and modular design, facilitating seamless robot-task interchangeability and reproducible training pipelines; and (3) Robust sim-to-real validation, demonstrated through successful policy transfer to multiple real-world robots, including a satellite robotic simulator, an unmanned surface vessel, and a wheeled ground vehicle. By ensuring consistency between simulation and real-world deployment, NavBench simplifies the development of adaptable RL-based navigation strategies. Its modular design allows researchers to easily integrate custom robots and tasks by following the framework’s predefined templates, making it accessible for a wide range of applications. Our code is publicly available at NavBench.

arxiv情報

著者 Matteo El-Hariry,Antoine Richard,Ricard M. Castan,Luis F. W. Batista,Matthieu Geist,Cedric Pradalier,Miguel Olivares-Mendez
発行日 2025-05-20 15:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation はコメントを受け付けていません

Energy-Efficient Deep Reinforcement Learning with Spiking Transformers

要約

エージェントベースのトランスは、複雑なタスクを解決する能力が実証されているため、最近の強化学習の進歩に広く採用されています。
ただし、トランスの高い計算の複雑さは、多くの場合、大幅なエネルギー消費をもたらし、実際の自律システムでの展開を制限します。
生物学的にインスピレーションを受けた構造を備えたスパイクニューラルネットワーク(SNN)は、機械学習のためのエネルギー効率の高い代替品を提供します。
このホワイトペーパーでは、SNNのエネルギー効率と強力な意思決定能力を補強学習の強力な意思決定能力を組み合わせた新しいスパイク変換補強学習(STRL)アルゴリズムが開発されています。
具体的には、複数の時間ステップで時空間パターンを処理できるマルチステップリーキーインテグレーターファイア(LIF)ニューロンと注意メカニズムを使用したSNNが設計されています。
アーキテクチャは、州、アクション、および報酬エンコーディングでさらに強化され、強化学習タスク用に最適化された変圧器のような構造を作成します。
最先端のベンチマークで実施された包括的な数値実験は、提案されたSNNトランスが従来のエージェントベースの変圧器と比較して政策パフォーマンスを大幅に改善することを示しています。
エネルギー効率と政策の最適性の両方を備えたこの作業は、複雑な現実世界の意思決定シナリオにバイオ風の低コストの機械学習モデルを展開するための有望な方向性を強調しています。

要約(オリジナル)

Agent-based Transformers have been widely adopted in recent reinforcement learning advances due to their demonstrated ability to solve complex tasks. However, the high computational complexity of Transformers often results in significant energy consumption, limiting their deployment in real-world autonomous systems. Spiking neural networks (SNNs), with their biologically inspired structure, offer an energy-efficient alternative for machine learning. In this paper, a novel Spike-Transformer Reinforcement Learning (STRL) algorithm that combines the energy efficiency of SNNs with the powerful decision-making capabilities of reinforcement learning is developed. Specifically, an SNN using multi-step Leaky Integrate-and-Fire (LIF) neurons and attention mechanisms capable of processing spatio-temporal patterns over multiple time steps is designed. The architecture is further enhanced with state, action, and reward encodings to create a Transformer-like structure optimized for reinforcement learning tasks. Comprehensive numerical experiments conducted on state-of-the-art benchmarks demonstrate that the proposed SNN Transformer achieves significantly improved policy performance compared to conventional agent-based Transformers. With both enhanced energy efficiency and policy optimality, this work highlights a promising direction for deploying bio-inspired, low-cost machine learning models in complex real-world decision-making scenarios.

arxiv情報

著者 Mohammad Irfan Uddin,Nishad Tasnim,Md Omor Faruk,Zejian Zhou
発行日 2025-05-20 15:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Energy-Efficient Deep Reinforcement Learning with Spiking Transformers はコメントを受け付けていません

Sinusoidal Initialization, Time for a New Start

要約

初期化は、深いニューラルネットワークトレーニングにおいて重要な役割を果たし、収束、安定性、および一般化に直接影響を与えます。
GlorotやHEの初期化などの一般的なアプローチは、ランダム性に依存しており、レイヤー接続全体に不均一な重量分布を生成できます。
この論文では、正弦波機能を使用して構造化された重量マトリックスを構築して、ネットワーク全体の重量の広がりとバランスを改善すると同時に、最初の前方パスからのニューロン活性化状態のより均一でよく調整された分布を促進する新しい決定論的な方法である正弦波初期化を紹介します。
正弦波初期化は、すでに均等かつ効率的に利用されている重みと活性化から始まるため、畳み込みニューラルネットワーク、ビジョン変圧器、大規模な言語モデルなど、幅広いモデルで一貫してより速い収束、より大きなトレーニング安定性、およびより高い最終精度を実現します。
平均して、私たちの実験では、最終的な検証精度で4.9%、収束速度が20.9%増加しています。
ランダム性を構造に置き換えることにより、この初期化は、深い学習システムのためのより強力で信頼性の高い基盤を提供します。

要約(オリジナル)

Initialization plays a critical role in Deep Neural Network training, directly influencing convergence, stability, and generalization. Common approaches such as Glorot and He initializations rely on randomness, which can produce uneven weight distributions across layer connections. In this paper, we introduce the Sinusoidal initialization, a novel deterministic method that employs sinusoidal functions to construct structured weight matrices expressly to improve the spread and balance of weights throughout the network while simultaneously fostering a more uniform, well-conditioned distribution of neuron activation states from the very first forward pass. Because Sinusoidal initialization begins with weights and activations that are already evenly and efficiently utilized, it delivers consistently faster convergence, greater training stability, and higher final accuracy across a wide range of models, including convolutional neural networks, vision transformers, and large language models. On average, our experiments show an increase of 4.9% in final validation accuracy and 20.9% in convergence speed. By replacing randomness with structure, this initialization provides a stronger and more reliable foundation for Deep Learning systems.

arxiv情報

著者 Alberto Fernández-Hernández,Jose I. Mestre,Manuel F. Dolz,Jose Duato,Enrique S. Quintana-Ortí
発行日 2025-05-20 15:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, G.3 | Sinusoidal Initialization, Time for a New Start はコメントを受け付けていません

A Logic of General Attention Using Edge-Conditioned Event Models (Extended Version)

要約

この作業では、最初の注目の一般的な論理を提示します。
注意とは、エージェントが論理的に構造化された命題、高次の信念、または他のエージェントが注意を払うなど、潜在的に複雑な情報に焦点を合わせることができる強力な認知能力です。
この能力は、無関係なものを無視するのに役立つため、強さですが、ある種の情報やエージェントが体系的に無視されると、バイアスを導入することもできます。
注意のための既存の動的認識論的ロジックは、原子式への注意のみをモデル化するため、このような複雑な注意シナリオをモデル化することはできません。
さらに、そのようなロジックは、エージェントの数と発表されたリテラルの数が指数関数的に増加するため、すぐに面倒になります。
ここでは、両方の制限を克服するロジックを紹介します。
まず、エッジコンディショニングされたイベントモデルを一般化します。これは、標準的なイベントモデルと同じくらい表現力豊かであることが示されていますが、指数関数的により簡潔です(標準イベントモデルと一般化された矢印の更新の両方を一般化します)。
第二に、私たちは任意の式に注意を向け、エージェントが他のエージェントの信念や注意にも注意を払うことができます。
私たちの仕事は、信念や意識などのモダリティとして注意を扱います。
そのモダリティに閉鎖特性を課し、その公理化に使用できる注意の原則を紹介します。
全体を通して、私たちのフレームワークを、人間の注意バイアスについて推論するAIエージェントの例で説明し、そのようなエージェントがどのように注意バイアスを発見できるかを示します。

要約(オリジナル)

In this work, we present the first general logic of attention. Attention is a powerful cognitive ability that allows agents to focus on potentially complex information, such as logically structured propositions, higher-order beliefs, or what other agents pay attention to. This ability is a strength, as it helps to ignore what is irrelevant, but it can also introduce biases when some types of information or agents are systematically ignored. Existing dynamic epistemic logics for attention cannot model such complex attention scenarios, as they only model attention to atomic formulas. Additionally, such logics quickly become cumbersome, as their size grows exponentially in the number of agents and announced literals. Here, we introduce a logic that overcomes both limitations. First, we generalize edge-conditioned event models, which we show to be as expressive as standard event models yet exponentially more succinct (generalizing both standard event models and generalized arrow updates). Second, we extend attention to arbitrary formulas, allowing agents to also attend to other agents’ beliefs or attention. Our work treats attention as a modality, like belief or awareness. We introduce attention principles that impose closure properties on that modality and that can be used in its axiomatization. Throughout, we illustrate our framework with examples of AI agents reasoning about human attentional biases, demonstrating how such agents can discover attentional biases.

arxiv情報

著者 Gaia Belardinelli,Thomas Bolander,Sebastian Watzl
発行日 2025-05-20 15:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Logic of General Attention Using Edge-Conditioned Event Models (Extended Version) はコメントを受け付けていません

Multi-agent Reinforcement Learning vs. Fixed-Time Control for Traffic Signal Optimization: A Simulation Study

要約

特に交差点での都市交通渋滞は、旅行時間、燃料消費、排出量に大きな影響を与えます。
従来の固定時間信号制御システムは、しばしば動的なトラフィックパターンを効果的に管理するための適応性を欠いています。
この研究では、シミュレートされた環境内の複数の交差点にわたる交通信号の調整を最適化するためのマルチエージェント補強学習(MARL)の適用を調査します。
Pygameを利用して、シミュレーションが開発され、相互接続された交差点のネットワークをランダムに生成された車両フローとモデル化して、現実的なトラフィックの変動を反映しました。
分散化されたMARLコントローラーが実装されました。各トラフィック信号は自律剤として動作し、近隣のエージェントからのローカル観測と情報に基づいて決定を下します。
パフォーマンスは、平均車両待機時間や全体的なスループットなどのメトリックを使用して、ベースライン固定時間コントローラーに対して評価されました。
MARLアプローチは、平均待機時間の短縮やスループットの改善など、統計的に有意な改善を実証しました。
これらの調査結果は、MARLベースの動的制御戦略が都市交通管理の効率を改善するための大きな約束を抱えていることを示唆しています。
スケーラビリティと現実世界の実装の課題に対処するために、さらに研究が推奨されます。

要約(オリジナル)

Urban traffic congestion, particularly at intersections, significantly impacts travel time, fuel consumption, and emissions. Traditional fixed-time signal control systems often lack the adaptability to manage dynamic traffic patterns effectively. This study explores the application of multi-agent reinforcement learning (MARL) to optimize traffic signal coordination across multiple intersections within a simulated environment. Utilizing Pygame, a simulation was developed to model a network of interconnected intersections with randomly generated vehicle flows to reflect realistic traffic variability. A decentralized MARL controller was implemented, in which each traffic signal operates as an autonomous agent, making decisions based on local observations and information from neighboring agents. Performance was evaluated against a baseline fixed-time controller using metrics such as average vehicle wait time and overall throughput. The MARL approach demonstrated statistically significant improvements, including reduced average waiting times and improved throughput. These findings suggest that MARL-based dynamic control strategies hold substantial promise for improving urban traffic management efficiency. More research is recommended to address scalability and real-world implementation challenges.

arxiv情報

著者 Saahil Mahato
発行日 2025-05-20 15:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Multi-agent Reinforcement Learning vs. Fixed-Time Control for Traffic Signal Optimization: A Simulation Study はコメントを受け付けていません

Can Large Language Models Really Recognize Your Name?

要約

大規模な言語モデル(LLM)は、機密のユーザーデータを保護するためにますます使用されています。
ただし、現在のLLMベースのプライバシーソリューションでは、これらのモデルが個人を特定できる情報(PII)、特に指定されたエンティティを確実に検出できると想定しています。
この論文では、LLMベースのプライバシータスクの体系的な障害を明らかにすることにより、その仮定に挑戦します。
具体的には、現代のLLMは、曖昧な文脈のために短いテキストスニペットでも定期的に人間の名前を見落としていることを示しています。
一見曖昧な人間名のベンチマークデータセットであるAmbenchを提案します。これは、簡潔なテキストスニペットに埋め込まれた、良性の迅速な注入とともに、規則性バイアス現象をレバレッジします。
PIIと特殊なツールを検出するように任された最新のLLMSに関する実験は、より認識可能な名前と比較して、あいまいな名前のリコールが20–40%低下することを示しています。
さらに、曖昧な人間名は、良性の迅速な注入が存在する場合にLLMSによって生成されるプライバシーを提供する概要では、4倍無視される可能性があります。
これらの調査結果は、ユーザーのプライバシーを保護し、プライバシー障害モードのより体系的な調査の必要性を強調するためにLLMのみに依存するという未熟なリスクを強調しています。

要約(オリジナル)

Large language models (LLMs) are increasingly being used to protect sensitive user data. However, current LLM-based privacy solutions assume that these models can reliably detect personally identifiable information (PII), particularly named entities. In this paper, we challenge that assumption by revealing systematic failures in LLM-based privacy tasks. Specifically, we show that modern LLMs regularly overlook human names even in short text snippets due to ambiguous contexts, which cause the names to be misinterpreted or mishandled. We propose AMBENCH, a benchmark dataset of seemingly ambiguous human names, leveraging the name regularity bias phenomenon, embedded within concise text snippets along with benign prompt injections. Our experiments on modern LLMs tasked to detect PII as well as specialized tools show that recall of ambiguous names drops by 20–40% compared to more recognizable names. Furthermore, ambiguous human names are four times more likely to be ignored in supposedly privacy-preserving summaries generated by LLMs when benign prompt injections are present. These findings highlight the underexplored risks of relying solely on LLMs to safeguard user privacy and underscore the need for a more systematic investigation into their privacy failure modes.

arxiv情報

著者 Dzung Pham,Peter Kairouz,Niloofar Mireshghallah,Eugene Bagdasarian,Chau Minh Pham,Amir Houmansadr
発行日 2025-05-20 16:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Can Large Language Models Really Recognize Your Name? はコメントを受け付けていません

Trustworthy Reputation Games and Applications to Proof-of-Reputation Blockchains

要約

評判システムは、ユーザーの行動に関するデータを収集して集約することにより、人々が誰を信頼するかを決定できるようにするため、インターネット時代に不可欠な役割を果たします。
最近、いくつかの作品が、分散型(ブロックチェーン)台帳の設計とスケーラビリティの改善に対する評判の使用を提案しました。
しかし、そのようなシステムは操作が起こりやすく、私たちの知る限り、彼らの経済的堅牢性をサポートできるゲーム理論的治療は存在しません。
この作業では、私たちが呼ぶものの設計のための新しいモデル、{\ em信頼できる評判システム}を出しました。
具体的には、私たちは{\ em em em trustworthy recortion Games}と呼ばれるゲームのクラスについて説明します。これにより、ユーザーはセット内の各サーバーの信頼性に関する信念の関数を報告できます。
彼らの真の信念に従って、規定された(真実の)戦略。
2。ユーザーの信念がサーバーの{\ em em true}信頼性からそれほど遠くないと仮定すると、上記の($ \ epsilon-$)nash平衡を再生することで、ユーザーの戦略を観察している人なら誰でも2つのサーバーの相対的な信頼性を推定できます。
当社のユーティリティとデコード機能は、よく知られているPagerankアルゴリズムと信頼性発見の問題との関係に基づいて構築されています。
最後に、上記のゲームがどのように動機付けられているかを示し、再評価の証明(POR)ブロックチェーンで活用できます。

要約(オリジナル)

Reputation systems play an essential role in the Internet era, as they enable people to decide whom to trust, by collecting and aggregating data about users’ behavior. Recently, several works proposed the use of reputation for the design and scalability improvement of decentralized (blockchain) ledgers; however, such systems are prone to manipulation and to our knowledge no game-theoretic treatment exists that can support their economic robustness. In this work we put forth a new model for the design of what we call, {\em trustworthy reputation systems}. Concretely, we describe a class of games, which we term {\em trustworthy reputation games}, that enable a set of users to report a function of their beliefs about the trustworthiness of each server in a set — i.e., their estimate of the probability that this server will behave according to its specified strategy — in a way that satisfies the following properties: 1. It is $(\epsilon$-)best response for any rational user in the game to play a prescribed (truthful) strategy according to their true belief. 2. Assuming that the users’ beliefs are not too far from the {\em true} trustworthiness of the servers, playing the above ($\epsilon-$)Nash equilibrium allows anyone who observes the users’ strategies to estimate the relative trustworthiness of any two servers. Our utilities and decoding function build on a connection between the well known PageRank algorithm and the problem of trustworthiness discovery, which can be of independent interest. Finally, we show how the above games are motivated by and can be leveraged in proof-of-reputation (PoR) blockchains.

arxiv情報

著者 Petros Drineas,Rohit Nema,Rafail Ostrovsky,Vassilis Zikas
発行日 2025-05-20 16:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.GT | Trustworthy Reputation Games and Applications to Proof-of-Reputation Blockchains はコメントを受け付けていません

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

要約

大規模な言語モデル(LLMS)の最近の進歩は、推論能力を正確に評価するためのより包括的な評価方法の必要性を強調しています。
多くの場合、既存のベンチマークはドメイン固有であるため、LLMの一般的な推論の可能性を完全にキャプチャすることはできません。
この制限に対処するために、Kor-BenchとGymnasiumに触発された動的評価プラットフォームである知識直交推論体育館(Korgym)を紹介します。
Korgymは、テキスト形式または視覚形式のいずれかで50以上のゲームを提供し、強化学習シナリオを使用したインタラクティブなマルチターン評価をサポートしています。
Korgymを使用して、19 LLMと8つのVLMで広範な実験を実施し、モデルファミリ内の一貫した推論パターンを明らかにし、クローズドソースモデルの優れた性能を実証します。
さらなる分析では、モデルのパフォーマンスに対するモダリティ、推論戦略、強化学習技術、および応答長の影響を調べます。
Korgymは、LLMの推論を進め、複雑でインタラクティブな環境に適した評価方法論を開発するための貴重なリソースになることを期待しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) underscore the need for more comprehensive evaluation methods to accurately assess their reasoning capabilities. Existing benchmarks are often domain-specific and thus cannot fully capture an LLM’s general reasoning potential. To address this limitation, we introduce the Knowledge Orthogonal Reasoning Gymnasium (KORGym), a dynamic evaluation platform inspired by KOR-Bench and Gymnasium. KORGym offers over fifty games in either textual or visual formats and supports interactive, multi-turn assessments with reinforcement learning scenarios. Using KORGym, we conduct extensive experiments on 19 LLMs and 8 VLMs, revealing consistent reasoning patterns within model families and demonstrating the superior performance of closed-source models. Further analysis examines the effects of modality, reasoning strategies, reinforcement learning techniques, and response length on model performance. We expect KORGym to become a valuable resource for advancing LLM reasoning research and developing evaluation methodologies suited to complex, interactive environments.

arxiv情報

著者 Jiajun Shi,Jian Yang,Jiaheng Liu,Xingyuan Bu,Jiangjie Chen,Junting Zhou,Kaijing Ma,Zhoufutu Wen,Bingli Wang,Yancheng He,Liang Song,Hualei Zhu,Shilong Li,Xingjian Wang,Wei Zhang,Ruibin Yuan,Yifan Yao,Wenjun Yang,Yunli Wang,Siyuan Fang,Siyu Yuan,Qianyu He,Xiangru Tang,Yingshui Tan,Wangchunshu Zhou,Zhaoxiang Zhang,Zhoujun Li,Wenhao Huang,Ge Zhang
発行日 2025-05-20 16:06:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation はコメントを受け付けていません

Physics-Guided Learning of Meteorological Dynamics for Weather Downscaling and Forecasting

要約

気象予測は不可欠ですが、従来の数値気象予測(NWP)方法では計算集中的で物理的に不完全なままです。
ディープラーニング(DL)モデルは効率と精度を提供しますが、多くの場合、物理的法則を無視し、解釈可能性と一般化を制限します。
PHYDL-NWPを提案します。これは、物理的方程式と潜在力パラメーター化をデータ駆動型モデルに統合する物理誘導性深い学習フレームワークです。
任意の空間的座標からの気象変数を予測し、自動分化を介して物理的項を計算し、物理学に基づいた損失を使用して、予測をダイナミクスと整列させます。
PHYDL-NWPは、連続関数として天候をモデル化することにより、最小限のオーバーヘッドで事前に訓練されたモデルを微調整することにより、解像度のないダウンスケーリングを可能にし、55Kパラメーターのみで最大170倍高速な推論を達成します。
実験は、PHYDL-NWPが予測パフォーマンスと身体的一貫性の両方を改善することを示しています。

要約(オリジナル)

Weather forecasting is essential but remains computationally intensive and physically incomplete in traditional numerical weather prediction (NWP) methods. Deep learning (DL) models offer efficiency and accuracy but often ignore physical laws, limiting interpretability and generalization. We propose PhyDL-NWP, a physics-guided deep learning framework that integrates physical equations with latent force parameterization into data-driven models. It predicts weather variables from arbitrary spatiotemporal coordinates, computes physical terms via automatic differentiation, and uses a physics-informed loss to align predictions with governing dynamics. PhyDL-NWP enables resolution-free downscaling by modeling weather as a continuous function and fine-tunes pre-trained models with minimal overhead, achieving up to 170x faster inference with only 55K parameters. Experiments show that PhyDL-NWP improves both forecasting performance and physical consistency.

arxiv情報

著者 Yingtao Luo,Shikai Fang,Binqing Wu,Qingsong Wen,Liang Sun
発行日 2025-05-20 16:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Physics-Guided Learning of Meteorological Dynamics for Weather Downscaling and Forecasting はコメントを受け付けていません