Embodied World Models Emerge from Navigational Task in Open-Ended Environments

要約

人工システムがどのように空間的認識と推論を開発できるかを理解することは、AIの研究では長い間課題でした。
従来のモデルはしばしば受動的な観察に依存していますが、具体化された認知理論は、環境との積極的な相互作用からより深い理解が現れることを示唆しています。
この研究では、ニューラルネットワークが相互作用を通じて空間概念を自律的に内在化し、平面ナビゲーションタスクに焦点を当てることができるかどうかを調査します。
Gated Recurrentユニット(Grus)とメタ補強学習(Meta-RL)を組み合わせて、エージェントが方向、距離、障害物回避などの空間特性をエンコードすることを学ぶことができることを示します。
ハイブリッド動的システム(HDS)を導入して、エージェントと環境の相互作用を閉じた動的システムとしてモデル化し、最適なナビゲーション戦略に対応する安定した制限サイクルを明らかにします。
尾根表現により、ナビゲーションパスを固定次元の行動空間にマッピングして、神経状態との比較を可能にします。
標準相関分析(CCA)は、これらの表現間の強いアライメントを確認し、エージェントの神経状態が空間知識を積極的にエンコードすることを示唆しています。
介入実験により、特定の神経次元がナビゲーションのパフォーマンスに因果関係があることがさらに示されています。
この作業は、AIのアクションと知覚のギャップを埋めるためのアプローチを提供し、複雑な環境全体で一般化できる適応的で解釈可能なモデルを構築するための新しい洞察を提供します。
神経表現の因果的検証は、AIシステムの内部メカニズムを理解して制御するための新しい道を開き、動的で現実世界のシナリオでマシンの学習と推論の境界を押し広げます。

要約(オリジナル)

Understanding how artificial systems can develop spatial awareness and reasoning has long been a challenge in AI research. Traditional models often rely on passive observation, but embodied cognition theory suggests that deeper understanding emerges from active interaction with the environment. This study investigates whether neural networks can autonomously internalize spatial concepts through interaction, focusing on planar navigation tasks. Using Gated Recurrent Units (GRUs) combined with Meta-Reinforcement Learning (Meta-RL), we show that agents can learn to encode spatial properties like direction, distance, and obstacle avoidance. We introduce Hybrid Dynamical Systems (HDS) to model the agent-environment interaction as a closed dynamical system, revealing stable limit cycles that correspond to optimal navigation strategies. Ridge Representation allows us to map navigation paths into a fixed-dimensional behavioral space, enabling comparison with neural states. Canonical Correlation Analysis (CCA) confirms strong alignment between these representations, suggesting that the agent’s neural states actively encode spatial knowledge. Intervention experiments further show that specific neural dimensions are causally linked to navigation performance. This work provides an approach to bridging the gap between action and perception in AI, offering new insights into building adaptive, interpretable models that can generalize across complex environments. The causal validation of neural representations also opens new avenues for understanding and controlling the internal mechanisms of AI systems, pushing the boundaries of how machines learn and reason in dynamic, real-world scenarios.

arxiv情報

著者 Li Jin,Liu Jia
発行日 2025-04-15 17:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Embodied World Models Emerge from Navigational Task in Open-Ended Environments はコメントを受け付けていません

A Dual-Space Framework for General Knowledge Distillation of Large Language Models

要約

知識蒸留(KD)は、知識を小さなモデルに転送することにより、大規模な言語モデル(LLM)を圧縮するための有望なソリューションです。
このプロセス中、ホワイトボックスKDメソッドは通常、教師モデルの出力分布と学生モデルの間の距離を最小限に抑えて、より多くの情報を転送します。
ただし、現在のホワイトボックスKDフレームワークが2つの制限を示していることを明らかにします。a)異なる出力スペースからの橋渡し確率分布は、教師モデルと学生モデルの類似性を制限します。
b)このフレームワークは、異なる語彙を持つLLMに適用することはできません。
これらの制限の根本原因の1つは、KDの教師と生徒からの分布が異なる予測ヘッドによって出力され、異なる出力スペースと寸法に分布が生成されることです。
したがって、この論文では、教師の予測ヘッドとKDの学生モデルを統一するデュアルスペースの知識蒸留(DSKD)フレームワークを提案します。
具体的には、最初に2つのプロジェクターを導入して、教師/生徒の隠された状態を学生/教師の表現スペースに投影するための理想的な初期化を行います。
この後、異なるモデルの隠された状態は同じヘッドを共有し、分布の出力スペースを統合することができます。
さらに、2つの異なるトークン化されたシーケンスで同じトークンを整列させるために、正確なトークンアライメント(ETA)アルゴリズムを開発します。
上記に基づいて、当社のDSKDフレームワークは、ポリティとポリティのKDの両方をサポートする一般的なKDフレームワークであり、語彙に関係なく任意の2つのLLM間のKDをサポートしています。
指導、数学的推論、およびコード生成ベンチマークに関する広範な実験は、DSKDが現在のホワイトボックスKDフレームワークに基づいて既存の方法を大幅に上回り、LLMSの他のクロストコーネザーKDメソッドを異なる語彙で上回ることを示しています。

要約(オリジナル)

Knowledge distillation (KD) is a promising solution to compress large language models (LLMs) by transferring their knowledge to smaller models. During this process, white-box KD methods usually minimize the distance between the output distributions of the teacher model and the student model to transfer more information. However, we reveal that the current white-box KD framework exhibits two limitations: a) bridging probability distributions from different output spaces will limit the similarity between the teacher model and the student model; b) this framework cannot be applied to LLMs with different vocabularies. One of the root causes for these limitations is that the distributions from the teacher and the student for KD are output by different prediction heads, which yield distributions in different output spaces and dimensions. Therefore, in this paper, we propose a dual-space knowledge distillation (DSKD) framework that unifies the prediction heads of the teacher and the student models for KD. Specifically, we first introduce two projectors with ideal initialization to project the teacher/student hidden states into the student/teacher representation spaces. After this, the hidden states from different models can share the same head and unify the output spaces of the distributions. Furthermore, we develop an exact token alignment (ETA) algorithm to align the same tokens in two differently-tokenized sequences. Based on the above, our DSKD framework is a general KD framework that supports both off-policy and on-policy KD, and KD between any two LLMs regardless of their vocabularies. Extensive experiments on instruction-following, mathematical reasoning, and code generation benchmarks show that DSKD significantly outperforms existing methods based on the current white-box KD framework and surpasses other cross-tokenizer KD methods for LLMs with different vocabularies.

arxiv情報

著者 Xue Zhang,Songming Zhang,Yunlong Liang,Fandong Meng,Yufeng Chen,Jinan Xu,Jie Zhou
発行日 2025-04-15 17:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A Dual-Space Framework for General Knowledge Distillation of Large Language Models はコメントを受け付けていません

Masculine Defaults via Gendered Discourse in Podcasts and Large Language Models

要約

男性的なデフォルトは、重要なタイプの性別バイアスとして広く認識されていますが、研究が不十分であるため、しばしば目に見えません。
男性的なデフォルトには、(i)文化的文脈、(ii)男性的な特性または行動、および(iii)それらの男性的特性または行動に対する報酬、または単に受け入れられる3つの重要な部分が含まれます。
この作業では、談話に基づく男性的なデフォルトを研究し、(i)ジェンダー談話相関フレームワーク(GDCF)を介して、話し言葉のコンテンツのジェンダーされた談話語の大規模な発見と分析の2つのフレームワークを提案します。
(ii)談話の単語埋め込み協会テスト(D-Weat)を介したLLMSのこれらの性別の談話語に関連する性別バイアスの測定。
私たちは、15,117のポッドキャストエピソードを分析し、ソーシャルメディアの人気のある成長しているポッドキャストであるポッドキャストに焦点を当てています。
ジェンダーと談話の単語の間の相関関係を分析し、LDAとBertopicを介して発見された – 性別の談話語リストを自動的に形成します。
次に、ドメイン固有のコンテキストでこれらの性別のある談話語の有病率を研究し、ビジネス、テクノロジー/政治、ビデオゲームのドメインには、性別のある談話に基づく男性的なデフォルトが存在することがわかります。
次に、Openaiからの最先端のLLM埋め込みモデルからのこれらの性別の談話語の表現を研究し、男性の談話の言葉よりも安定した堅牢な表現を持っていることがわかります。
したがって、男性は、最先端の言語モデルの1つによってシステムパフォーマンスが向上し、談話パターンに報われます。この埋め込み格差は、代表的な害と男性的なデフォルトです。

要約(オリジナル)

Masculine defaults are widely recognized as a significant type of gender bias, but they are often unseen as they are under-researched. Masculine defaults involve three key parts: (i) the cultural context, (ii) the masculine characteristics or behaviors, and (iii) the reward for, or simply acceptance of, those masculine characteristics or behaviors. In this work, we study discourse-based masculine defaults, and propose a twofold framework for (i) the large-scale discovery and analysis of gendered discourse words in spoken content via our Gendered Discourse Correlation Framework (GDCF); and (ii) the measurement of the gender bias associated with these gendered discourse words in LLMs via our Discourse Word-Embedding Association Test (D-WEAT). We focus our study on podcasts, a popular and growing form of social media, analyzing 15,117 podcast episodes. We analyze correlations between gender and discourse words — discovered via LDA and BERTopic — to automatically form gendered discourse word lists. We then study the prevalence of these gendered discourse words in domain-specific contexts, and find that gendered discourse-based masculine defaults exist in the domains of business, technology/politics, and video games. Next, we study the representation of these gendered discourse words from a state-of-the-art LLM embedding model from OpenAI, and find that the masculine discourse words have a more stable and robust representation than the feminine discourse words, which may result in better system performance on downstream tasks for men. Hence, men are rewarded for their discourse patterns with better system performance by one of the state-of-the-art language models — and this embedding disparity is a representational harm and a masculine default.

arxiv情報

著者 Maria Teleki,Xiangjue Dong,Haoran Liu,James Caverlee
発行日 2025-04-15 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI | Masculine Defaults via Gendered Discourse in Podcasts and Large Language Models はコメントを受け付けていません

Belief-State Query Policies for User-Aligned POMDPs

要約

実際の設定での計画は、ユーザーの要件に合わせて部分的に観察可能性に対処することを必要とすることがよくあります。
目標指向の部分的に観察可能なマルコフ決定プロセス(GPOMDP)の設定におけるパラメーター化された信念 – 状態クエリ(BSQ)ポリシーを使用して、部分的に観察可能な設定でエージェントの動作に関するユーザーの制約と好みを表現するための新しいフレームワークを提示します。
このような制約の最初の正式な分析を提示し、パラメーター化されたBSQポリシーの予想コスト関数w.r.tのパラメーターは凸ではないが、それは区分的な一定であり、有限の範囲で有限の暗黙の離散パラメーター検索空間を生成することを証明します。
この理論的結果は、ユーザーアライメントを保証してGPOMDPエージェントの動作を最適化する新しいアルゴリズムにつながります。
分析では、アルゴリズムが限界で最適なユーザーに配置された動作に収束することが証明されています。
経験的な結果は、パラメーター化されたBSQポリシーが、部分的に観察可能な設定でのユーザーに配置された計画のための計算的に実行可能なアプローチを提供することを示しています。

要約(オリジナル)

Planning in real-world settings often entails addressing partial observability while aligning with users’ requirements. We present a novel framework for expressing users’ constraints and preferences about agent behavior in a partially observable setting using parameterized belief-state query (BSQ) policies in the setting of goal-oriented partially observable Markov decision processes (gPOMDPs). We present the first formal analysis of such constraints and prove that while the expected cost function of a parameterized BSQ policy w.r.t its parameters is not convex, it is piecewise constant and yields an implicit discrete parameter search space that is finite for finite horizons. This theoretical result leads to novel algorithms that optimize gPOMDP agent behavior with guaranteed user alignment. Analysis proves that our algorithms converge to the optimal user-aligned behavior in the limit. Empirical results show that parameterized BSQ policies provide a computationally feasible approach for user-aligned planning in partially observable settings.

arxiv情報

著者 Daniel Bramblett,Siddharth Srivastava
発行日 2025-04-15 17:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Belief-State Query Policies for User-Aligned POMDPs はコメントを受け付けていません

SpoofCeleb: Speech Deepfake Detection and SASV In The Wild

要約

このペーパーでは、音声ディープファーク検出(SDD)およびスプーフィングの強い自動スピーカー検証(SASV)のために設計されたデータセットであるSpoofceleBを紹介します。
堅牢な認識システムには、さまざまなレベルのノイズを訓練するために、さまざまな音響環境で記録された音声データが必要です。
ただし、現在のデータセットには通常、TTSトレーニングの要件により、クリーンで高品質の録音(真正データ)が含まれます。
通常、TTSモデルをトレーニングするためには、スタジオ品質またはよく記録された読み取り音声が必要です。
現在のSDDデータセットは、スピーカーの多様性が不十分なため、SASVモデルをトレーニングするための有用性も限られています。
SpoofceleBは、VoxceleB1データセットを処理し、TTSトレーニングに適した形式に変換する完全に自動化されたパイプラインを活用します。
その後、23の現代TTSシステムをトレーニングします。
Spoofcelebは、自然な現実世界の条件下で収集された1,251のユニークなスピーカーから250万を超える発言で構成されています。
データセットには、よく制御された実験プロトコルを備えた慎重に分割されたトレーニング、検証、および評価セットが含まれます。
SDDタスクとSASVタスクの両方のベースライン結果を提示します。
すべてのデータ、プロトコル、およびベースラインは、https://jungjee.github.io/spoofcelebで公開されています。

要約(オリジナル)

This paper introduces SpoofCeleb, a dataset designed for Speech Deepfake Detection (SDD) and Spoofing-robust Automatic Speaker Verification (SASV), utilizing source data from real-world conditions and spoofing attacks generated by Text-To-Speech (TTS) systems also trained on the same real-world data. Robust recognition systems require speech data recorded in varied acoustic environments with different levels of noise to be trained. However, current datasets typically include clean, high-quality recordings (bona fide data) due to the requirements for TTS training; studio-quality or well-recorded read speech is typically necessary to train TTS models. Current SDD datasets also have limited usefulness for training SASV models due to insufficient speaker diversity. SpoofCeleb leverages a fully automated pipeline we developed that processes the VoxCeleb1 dataset, transforming it into a suitable form for TTS training. We subsequently train 23 contemporary TTS systems. SpoofCeleb comprises over 2.5 million utterances from 1,251 unique speakers, collected under natural, real-world conditions. The dataset includes carefully partitioned training, validation, and evaluation sets with well-controlled experimental protocols. We present the baseline results for both SDD and SASV tasks. All data, protocols, and baselines are publicly available at https://jungjee.github.io/spoofceleb.

arxiv情報

著者 Jee-weon Jung,Yihan Wu,Xin Wang,Ji-Hoon Kim,Soumi Maiti,Yuta Matsunaga,Hye-jin Shim,Jinchuan Tian,Nicholas Evans,Joon Son Chung,Wangyou Zhang,Seyun Um,Shinnosuke Takamichi,Shinji Watanabe
発行日 2025-04-15 17:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | SpoofCeleb: Speech Deepfake Detection and SASV In The Wild はコメントを受け付けていません

Greedy Restart Schedules: A Baseline for Dynamic Algorithm Selection on Numerical Black-box Optimization Problems

要約

多くの最適化ドメインでは、全体的な最先端に貢献する複数の異なるソルバーがあり、それぞれがいくつかでより良いパフォーマンスを発揮し、他のタイプの問題インスタンスではさらに悪いことです。
インスタンスベースのアルゴリズムの選択、構成、スケジューリングなどのメタアルゴリズムアプローチは、(構成可能な)オプティマイザーのセットから可能なパフォーマンスを抽出することにより、このギャップを閉じることを目指しています。
これに関連して、最高のパフォーマンスを発揮する個々のアルゴリズムは、多くの場合、高速ローカル最適化アプローチの多くの再起動を実行する手作りのハイブリッドヒューリスティックです。
ただし、最適化された再起動スケジュールを作成するためのデータ駆動型の手法は、まだ広範囲に研究されていません。
ここでは、選択時に未解決のトレーニング問題の分布を最適に実行するアルゴリズムを繰り返し選択する簡単なスケジューリングアプローチを提示し、問題に依存しないソルバースケジュールになります。
BBOBテストベッドの数値ブラックボックス最適化からよく知られているオプティマーを使用して、さまざまな評価プロトコルにわたって元のポートフォリオからのシングルと仮想ベストソルバーのギャップの多くを埋めるアプローチを実証します。
貪欲な再起動スケジュールは、より複雑な動的アルゴリズム選択モデルの強力なベースラインを提供します。

要約(オリジナル)

In many optimization domains, there are multiple different solvers that contribute to the overall state-of-the-art, each performing better on some, and worse on other types of problem instances. Meta-algorithmic approaches, such as instance-based algorithm selection, configuration and scheduling, aim to close this gap by extracting the most performance possible from a set of (configurable) optimizers. In this context, the best performing individual algorithms are often hand-crafted hybrid heuristics which perform many restarts of fast local optimization approaches. However, data-driven techniques to create optimized restart schedules have not yet been extensively studied. Here, we present a simple scheduling approach that iteratively selects the algorithm performing best on the distribution of unsolved training problems at time of selection, resulting in a problem-independent solver schedule. We demonstrate our approach using well-known optimizers from numerical black-box optimization on the BBOB testbed, bridging much of the gap between single and virtual best solver from the original portfolio across various evaluation protocols. Our greedy restart schedule presents a powerful baseline for more complex dynamic algorithm selection models.

arxiv情報

著者 Lennart Schäpermeier
発行日 2025-04-15 17:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC | Greedy Restart Schedules: A Baseline for Dynamic Algorithm Selection on Numerical Black-box Optimization Problems はコメントを受け付けていません

TextArena

要約

Textarenaは、大規模な言語モデル(LLM)におけるエージェント行動のトレーニングと評価のための競争力のあるテキストベースのゲームのオープンソースコレクションです。
57以上の一意の環境(シングルプレイヤー、2人のプレイヤー、マルチプレイヤーのセットアップを含む)にまたがって、リアルタイムのトリュースキルスコアを使用して、オンラインプレイシステム(人間やその他の提出されたモデルに対して)を介してモデル機能を簡単に評価できるようになります。
従来のベンチマークは、交渉、心の理論、欺ceptionなどの動的なソーシャルスキルをめったに評価し、テキストアレナが対処するギャップを作成します。
研究、コミュニティ、拡張性を念頭に置いて設計されたTextarenaは、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルに対抗する、トレーニングモデルの容易さを強調しています。
環境、ゲーム、リーダーボード、および例の詳細なドキュメントは、https://github.com/leonguertler/textarenaおよびhttps://www.textarena.ai/で入手できます。

要約(オリジナル)

TextArena is an open-source collection of competitive text-based games for training and evaluation of agentic behavior in Large Language Models (LLMs). It spans 57+ unique environments (including single-player, two-player, and multi-player setups) and allows for easy evaluation of model capabilities via an online-play system (against humans and other submitted models) with real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social skills such as negotiation, theory of mind, and deception, creating a gap that TextArena addresses. Designed with research, community and extensibility in mind, TextArena emphasizes ease of adding new games, adapting the framework, testing models, playing against the models, and training models. Detailed documentation of environments, games, leaderboard, and examples are available on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.

arxiv情報

著者 Leon Guertler,Bobby Cheng,Simon Yu,Bo Liu,Leshem Choshen,Cheston Tan
発行日 2025-04-15 17:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA | TextArena はコメントを受け付けていません

A Clean Slate for Offline Reinforcement Learning

要約

オフライン強化学習(RL)の進歩は、あいまいな問題の定義と絡み合ったアルゴリズム設計によって妨げられており、一貫性のない実装、不十分なアブレーション、不公平な評価をもたらします。
オフラインRLは環境の相互作用を明示的に回避しますが、以前の方法は、ハイパーパラメーターチューニングの広範な文書化されていないオンライン評価を頻繁に採用し、メソッドの比較を複雑にします。
さらに、既存の参照実装は、ボイラープレートコードで大きく異なり、コアアルゴリズムの貢献を不明瞭にします。
最初に、オンラインチューニング予算を明示的に定量化する厳格な分類法と透明な評価プロトコルを導入することにより、これらの課題に対処します。
不透明なアルゴリズム設計を解決するために、さまざまなモデルなしでモデルベースのオフラインRLメソッドのクリーンでミニマルな単一ファイルの実装を提供し、明確さを大幅に向上させ、実質的なスピードアップを達成します。
これらの合理化された実装を活用して、単一の包括的なハイパーパラメーター空間内で多様な以前のアプローチをカプセル化する統一されたアルゴリズムであるUnifloralを提案し、共有ハイパーパラメーター空間でのアルゴリズム開発を可能にします。
厳密な評価プロトコルを使用して単フロラルを使用して、確立されたベースラインを大幅に上回る2つの新しいアルゴリズム – TD3-AWR(モデルフリー)とMOBRAC(モデルベース)を開発します。
私たちの実装は、https://github.com/emptyjackson/unifloralで公開されています。

要約(オリジナル)

Progress in offline reinforcement learning (RL) has been impeded by ambiguous problem definitions and entangled algorithmic designs, resulting in inconsistent implementations, insufficient ablations, and unfair evaluations. Although offline RL explicitly avoids environment interaction, prior methods frequently employ extensive, undocumented online evaluation for hyperparameter tuning, complicating method comparisons. Moreover, existing reference implementations differ significantly in boilerplate code, obscuring their core algorithmic contributions. We address these challenges by first introducing a rigorous taxonomy and a transparent evaluation protocol that explicitly quantifies online tuning budgets. To resolve opaque algorithmic design, we provide clean, minimalistic, single-file implementations of various model-free and model-based offline RL methods, significantly enhancing clarity and achieving substantial speed-ups. Leveraging these streamlined implementations, we propose Unifloral, a unified algorithm that encapsulates diverse prior approaches within a single, comprehensive hyperparameter space, enabling algorithm development in a shared hyperparameter space. Using Unifloral with our rigorous evaluation protocol, we develop two novel algorithms – TD3-AWR (model-free) and MoBRAC (model-based) – which substantially outperform established baselines. Our implementation is publicly available at https://github.com/EmptyJackson/unifloral.

arxiv情報

著者 Matthew Thomas Jackson,Uljad Berdica,Jarek Liesen,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2025-04-15 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | A Clean Slate for Offline Reinforcement Learning はコメントを受け付けていません

Elucidating the Design Space of Multimodal Protein Language Models

要約

マルチモーダルタンパク質言語モデル(PLMS)は、シーケンスとトークンベースの構造情報を統合し、タンパク質モデリング、生成、および設計の強力な基盤として機能します。
ただし、3D構造を離散トークンに象徴することに依存すると、細粒の構造の詳細と相関に関する忠実度が大幅に失われます。
この論文では、マルチモーダルPLMSの設計スペースを体系的に解明して、制限を克服します。
トークン化の損失を特定し、PLMSによる主要なボトルネックとしての不正確な構造トークン予測を特定します。
これらに対処するために、提案された設計スペースは、生成モデリングの改善、構造認識アーキテクチャ、および表現学習、およびデータ調査をカバーしています。
私たちの進歩は、細かい粒度の監督に近づき、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現できることを示しています。
効果的な設計方法は、PDBテストセットでRMSDを5.52から2.36に減らし、3Bベースラインを上回り、特殊な折りたたみモデルと同等に削減することにより、構造生成の多様性、特に650mモデルの折りたたみ能力を劇的に改善します。

要約(オリジナル)

Multimodal protein language models (PLMs) integrate sequence and token-based structural information, serving as a powerful foundation for protein modeling, generation, and design. However, the reliance on tokenizing 3D structures into discrete tokens causes substantial loss of fidelity about fine-grained structural details and correlations. In this paper, we systematically elucidate the design space of multimodal PLMs to overcome their limitations. We identify tokenization loss and inaccurate structure token predictions by the PLMs as major bottlenecks. To address these, our proposed design space covers improved generative modeling, structure-aware architectures and representation learning, and data exploration. Our advancements approach finer-grained supervision, demonstrating that token-based multimodal PLMs can achieve robust structural modeling. The effective design methods dramatically improve the structure generation diversity, and notably, folding abilities of our 650M model by reducing the RMSD from 5.52 to 2.36 on PDB testset, even outperforming 3B baselines and on par with the specialized folding models.

arxiv情報

著者 Cheng-Yen,Hsieh,Xinyou Wang,Daiheng Zhang,Dongyu Xue,Fei Ye,Shujian Huang,Zaixiang Zheng,Quanquan Gu
発行日 2025-04-15 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | Elucidating the Design Space of Multimodal Protein Language Models はコメントを受け付けていません

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

要約

複雑な数学的推論の能力は、人工知能の重要なベンチマークです。
LLMSに適用される強化学習(RL)は有望であるが、進歩は十分に挑戦的で、RLに適した検証可能な回答形式を所有しており、評価ベンチマークに汚染されていない大規模なトレーニングデータの欠如によって大幅に妨げられる。
これらの制限に対処するために、RLを介して高度な推論モデルをトレーニングするように特別に設計された、約103kの数学的問題を含む新しい大規模なデータセットであるDeepMath-103Kを導入します。
DeepMath-103Kは、ソース分析、多数のベンチマークに対する厳しい除染、および困難なフィルタリング(主にレベル5-9)を含む厳格なパイプラインを通じてキュレーションされ、チャレンジの既存のオープンリソースを大幅に超えています。
各問題には、検証可能な最終回答、ルールベースのRLを有効にし、監視された微調整や蒸留などの多様なトレーニングパラダイムに適した3つの異なるR1生成ソリューションが含まれます。
幅広い数学的トピックにまたがるDeepMath-103Kは、一般化可能な推論の開発を促進します。
DeepMath-103Kでトレーニングされたモデルは、挑戦的な数学ベンチマークで大幅な改善を達成し、その有効性を検証することを実証します。
DeepMath-103Kを公開して、より有能なAI推論システムの構築におけるコミュニティの進歩を促進します:https://github.com/zwhe99/deepmath。

要約(オリジナル)

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

arxiv情報

著者 Zhiwei He,Tian Liang,Jiahao Xu,Qiuzhi Liu,Xingyu Chen,Yue Wang,Linfeng Song,Dian Yu,Zhenwen Liang,Wenxuan Wang,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-04-15 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning はコメントを受け付けていません