Large Language Models as Proxies for Theories of Human Linguistic Cognition

要約

人間の言語認知の研究における現在の大手言語モデル(LLM)の可能な役割を考慮します。
私たちは、表現と学習が比較的言語的に中立であるが、現在のLLMSとは重要な方法で異なる認知の理論のためのプロキシなどのモデルの使用に焦点を当てています。
LLMのこの潜在的な使用は、2種類の質問の文脈における認知の理論のプロキシとしてのプロキシとして説明します。(a)ターゲット理論が特定のコーパスからの特定のパターンの獲得を説明するかどうか。
(b)ターゲット理論が、特定の類型的に見られたパターンを、類型的には不よく考えられたパターンよりも獲得しやすくするかどうか。
私たちが示す2つの質問のそれぞれについて、最近の文献に基づいて、現在のLLMがどのように役立つかをどのように助けられるかということですが、現在、この助けは非常に限られていることに注意してください。

要約(オリジナル)

We consider the possible role of current large language models (LLMs) in the study of human linguistic cognition. We focus on the use of such models as proxies for theories of cognition that are relatively linguistically-neutral in their representations and learning but differ from current LLMs in key ways. We illustrate this potential use of LLMs as proxies for theories of cognition in the context of two kinds of questions: (a) whether the target theory accounts for the acquisition of a given pattern from a given corpus; and (b) whether the target theory makes a given typologically-attested pattern easier to acquire than another, typologically-unattested pattern. For each of the two questions we show, building on recent literature, how current LLMs can potentially be of help, but we note that at present this help is quite limited.

arxiv情報

著者 Imry Ziv,Nur Lan,Emmanuel Chemla,Roni Katzir
発行日 2025-02-11 16:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models as Proxies for Theories of Human Linguistic Cognition はコメントを受け付けていません

The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities

要約

llama-breeze2(以下、Breeze2と呼ばれる)は、3Bおよび8Bパラメーター構成で利用可能な高度なマルチモーダル言語モデルのスイートであり、従来の中国語表現を強化するために特別に設計されています。
Llama 3.2モデルファミリーに基づいて、伝統的な中国人の言語的および文化的遺産を強化するために、広範なコーパスでBreeze2の事前訓練を続けています。
言語モデリング機能に加えて、関数呼び出しとビジョン理解機能を備えたモデルを大幅に増強します。
この出版物の時点で、私たちが知っている限り、推論を誘発するプロンプトがない場合、Breeze2は、そのサイズクラスでの従来の中国の機能呼び出しと画像の理解における最も強力なパフォーマンスモデルです。
Beyeze2の有効性は、台湾の一般知識、指導の公開、長いコンテキスト、機能呼び出し、ビジョン理解など、さまざまなタスクにわたってベンチマークされています。
Llama 3.2 Community Licenseの下で、すべてのBreeze2モデルを公開しています。
また、モバイルアプリケーションを使用してモバイルプラットフォームで実行されているモデルの機能を紹介します。

要約(オリジナル)

Llama-Breeze2 (hereinafter referred to as Breeze2) is a suite of advanced multi-modal language models, available in 3B and 8B parameter configurations, specifically designed to enhance Traditional Chinese language representation. Building upon the Llama 3.2 model family, we continue the pre-training of Breeze2 on an extensive corpus to enhance the linguistic and cultural heritage of Traditional Chinese. In addition to language modeling capabilities, we significantly augment the models with function calling and vision understanding capabilities. At the time of this publication, as far as we are aware, absent reasoning-inducing prompts, Breeze2 are the strongest performing models in Traditional Chinese function calling and image understanding in its size class. The effectiveness of Breeze2 is benchmarked across various tasks, including Taiwan general knowledge, instruction-following, long context, function calling, and vision understanding. We are publicly releasing all Breeze2 models under the Llama 3.2 Community License. We also showcase the capabilities of the model running on mobile platform with a mobile application which we also open source.

arxiv情報

著者 MediaTek Research,:,Chan-Jan Hsu,Chia-Sheng Liu,Meng-Hsi Chen,Muxi Chen,Po-Chun Hsu,Yi-Chang Chen,Da-Shan Shiu
発行日 2025-02-11 16:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities はコメントを受け付けていません

FinTruthQA: A Benchmark Dataset for Evaluating the Quality of Financial Information Disclosure

要約

正確で透明な財務情報の開示は、会計と資金調達に不可欠であり、信頼を促進し、経済発展を促進する情報に基づいた投資決定を可能にします。
多くの情報開示プラットフォームの中で、中国の証券取引所の投資家インタラクティブプラットフォームは、上場企業がオンラインの質疑応答(Q&A)形式を通じて投資家に関心のある情報を開示するための斬新でインタラクティブな方法を提供します。
ただし、上場企業は、実質的な情報が限られているか、実質的な情報がない場合に質問に対応することが一般的であり、大量のQ&Aペアに関する財務情報の開示の質を自動的に評価することは困難です。
この研究では、AIと金融の専門家の学際的なチームは、FintruthQAを提案しました。FintruthQAは、財務Q&Aデータにおける情報開示の自動品質評価のための高度な自然言語処理(NLP)技術を評価するために設計されたベンチマークです。
6,000の実世界の財務Q&Aエントリで構成され、各Q&Aは4つの主要な評価基準に基づいて手動で注釈が付けられました。
大規模な言語モデル(LLMS)を含む、FintruthqaのさまざまなNLP技術をベンチマークしました。
実験では、既存のNLPモデルは、質問の識別と質問関連のタスクに対して強い予測能力を持っているが、回答の読みやすさと回答の関連性タスクの最適ではないことを示しました。
このベンチマークを確立することにより、情報開示の自動評価のための堅牢な基盤を提供し、財務開示慣行における透明性、公平性、投資家保護を促進することにより、AIを社会的利益のために活用する方法を実証します。
FintruthQAは、監査人、規制当局、および金融アナリストが、リアルタイムの監視とデータ駆動型の意思決定のために、また会計と金融の高度な研究の研究者が使用することができ、最終的に金融市場におけるより大きな信頼と効率を促進できます。

要約(オリジナル)

Accurate and transparent financial information disclosure is essential in accounting and finance, fostering trust and enabling informed investment decisions that drive economic development. Among many information disclosure platforms, the Chinese stock exchanges’ investor interactive platform provides a novel and interactive way for listed firms to disclose information of interest to investors through an online question-and-answer (Q&A) format. However, it is common for listed firms to respond to questions with limited or no substantive information, and automatically evaluating the quality of financial information disclosure on large amounts of Q&A pairs is challenging. In this study, our interdisciplinary team of AI and finance professionals proposed FinTruthQA, a benchmark designed to evaluate advanced natural language processing (NLP) techniques for the automatic quality assessment of information disclosure in financial Q&A data. It comprises 6,000 real-world financial Q&A entries and each Q&A was manually annotated based on four key evaluation criteria. We benchmarked various NLP techniques on FinTruthQA, including large language models(LLMs). Experiments showed that existing NLP models have strong predictive ability for question identification and question relevance tasks, but are suboptimal for answer readability and answer relevance tasks. By establishing this benchmark, we provide a robust foundation for the automatic evaluation of information disclosure, demonstrating how AI can be leveraged for social good by promoting transparency, fairness, and investor protection in financial disclosure practices. FinTruthQA can be used by auditors, regulators, and financial analysts for real-time monitoring and data-driven decision-making, as well as by researchers for advanced studies in accounting and finance, ultimately fostering greater trust and efficiency in the financial markets.

arxiv情報

著者 Ziyue Xu,Peilin Zhou,Xinyu Shi,Jiageng Wu,Yikang Jiang,Dading Chong,Bin Ke,Jie Yang
発行日 2025-02-11 16:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FinTruthQA: A Benchmark Dataset for Evaluating the Quality of Financial Information Disclosure はコメントを受け付けていません

Making Language Models Robust Against Negation

要約

否定は言語モデルにとって長年の課題でした。
以前の研究では、彼らが多くの自然言語理解のタスクにおいて否定に苦しんでいることが示されています。
この作業では、言語モデルを否定に対してより堅牢にするための自己監視方法を提案します。
新しいタスク、次の文の極性予測(NSPP)、および次の文予測(NSP)タスクのバリエーションを紹介します。
BertとRobertaは、9つの否定関連のベンチマークで、既製のバージョンよりも優れているタスクでさらに事前に訓練されていることを示しています。
最も顕著なのは、トレーニング前のタスクがコンドカに1.8%から9.1%の改善をもたらすことです。

要約(オリジナル)

Negation has been a long-standing challenge for language models. Previous studies have shown that they struggle with negation in many natural language understanding tasks. In this work, we propose a self-supervised method to make language models more robust against negation. We introduce a novel task, Next Sentence Polarity Prediction (NSPP), and a variation of the Next Sentence Prediction (NSP) task. We show that BERT and RoBERTa further pre-trained on our tasks outperform the off-the-shelf versions on nine negation-related benchmarks. Most notably, our pre-training tasks yield between 1.8% and 9.1% improvement on CondaQA, a large question-answering corpus requiring reasoning over negation.

arxiv情報

著者 MohammadHossein Rezaei,Eduardo Blanco
発行日 2025-02-11 17:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Making Language Models Robust Against Negation はコメントを受け付けていません

Training Language Models to Reason Efficiently

要約

スケーリングモデルのサイズとトレーニングデータは、大規模な言語モデル(LLMS)のパフォーマンスに大きな進歩をもたらしました。
ただし、このアプローチのリターンの減少は、特に高度な推論を必要とするタスクで、モデル機能を改善するための代替方法を必要とします。
長い考え方を活用する大規模な推論モデルは、問題解決能力に前例のないブレークスルーをもたらしますが、長い世代に関連するかなりの展開コストです。
推論コストを削減することは、これらのモデルの経済的実現可能性、ユーザーエクスペリエンス、環境の持続可能性にとって重要です。
この作業では、効率的に推論するために大きな推論モデルを訓練することを提案します。
より正確には、Rehnection Learning(RL)を使用して推論モデルをトレーニングして、タスクの複雑さに基づいて推論時間計算を動的に割り当てます。
私たちの方法は、精度を維持しながら不必要な計算オーバーヘッドを最小限に抑え、それによって実質的な効率性の向上を達成するようにモデルを奨励します。
これにより、単一のハイパーパラメーターを介して制御される、効率レベルがさまざまな推論モデルファミリーの導出を可能にします。
2つのオープンウェイトの大きな推論モデルでの実験は、ほとんどの精度を維持しながら、推論コストの大幅な削減を示しています。

要約(オリジナル)

Scaling model size and training data has led to great advances in the performance of Large Language Models (LLMs). However, the diminishing returns of this approach necessitate alternative methods to improve model capabilities, particularly in tasks requiring advanced reasoning. Large reasoning models, which leverage long chain-of-thoughts, bring unprecedented breakthroughs in problem-solving capabilities but at a substantial deployment cost associated to longer generations. Reducing inference costs is crucial for the economic feasibility, user experience, and environmental sustainability of these models. In this work, we propose to train large reasoning models to reason efficiently. More precisely, we use reinforcement learning (RL) to train reasoning models to dynamically allocate inference-time compute based on task complexity. Our method incentivizes models to minimize unnecessary computational overhead while maintaining accuracy, thereby achieving substantial efficiency gains. It enables the derivation of a family of reasoning models with varying efficiency levels, controlled via a single hyperparameter. Experiments on two open-weight large reasoning models demonstrate significant reductions in inference cost while preserving most of the accuracy.

arxiv情報

著者 Daman Arora,Andrea Zanette
発行日 2025-02-11 18:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Training Language Models to Reason Efficiently はコメントを受け付けていません

Cross-Lingual Transfer Learning for Speech Translation

要約

NLPと音声研究の多言語基盤モデルの構築に関心が高まっています。
このペーパーでは、これらのモデルの音声翻訳能力を制限されたデータで拡張する方法を検討します。
スピーチ認識と英語翻訳で強力なパフォーマンスを備えた音声基盤モデルであるWhisperは、モデルの例として使用されます。
音声からスピーチの検索を使用して、エンコーダーによって生成されたオーディオ表現を分析すると、異なる言語からの発話が共有セマンティックスペースにマッピングされることを示します。
この共有された埋め込みスペースは、音声翻訳でゼロショットクロスリンガル転送のために活用できます。
英語から中国語の音声翻訳データのみを備えたウィスパーデコーダーを微調整することにより、英語に加えて、複数の言語で中国語への翻訳のパフォーマンスの向上を取得できます。
さらに、トレーニングで見られるものに関連する言語の場合、モデルがトレーニングで言語を見ないか、転写を実行できるにもかかわらず、音声翻訳を実行することが可能です。

要約(オリジナル)

There has been increasing interest in building multilingual foundation models for NLP and speech research. This paper examines how to expand the speech translation capability of these models with restricted data. Whisper, a speech foundation model with strong performance on speech recognition and English translation, is used as the example model. Using speech-to-speech retrieval to analyse the audio representations generated by the encoder, we show that utterances from different languages are mapped to a shared semantic space. This shared embedding space can then be leveraged for zero-shot cross-lingual transfer in speech translation. By fine-tuning the Whisper decoder with only English-to-Chinese speech translation data, improved performance for translation to Chinese can be obtained for multiple languages, in addition to English. Furthermore, for languages related to those seen in training it is possible to perform speech translation, despite the model never seeing the language in training, or being able to perform transcription.

arxiv情報

著者 Rao Ma,Mengjie Qian,Yassir Fathullah,Siyuan Tang,Mark Gales,Kate Knill
発行日 2025-02-11 18:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cross-Lingual Transfer Learning for Speech Translation はコメントを受け付けていません

Auditing Prompt Caching in Language Model APIs

要約

大規模な言語モデル(LLMS)でのプロンプトキャッシュは、データ依存のタイミングのバリエーションをもたらします。キャッシュされたプロンプトは、キャッシュされていないプロンプトよりも速く処理されます。
これらのタイミングの違いは、サイドチャネルタイミング攻撃のリスクをもたらします。
たとえば、キャッシュがユーザー間で共有されている場合、攻撃者は、高速API応答時間からキャッシュされたプロンプトを特定して、他のユーザーのプロンプトに関する情報を学習できます。
迅速なキャッシュがプライバシーの漏れを引き起こす可能性があるため、APIプロバイダーのキャッシュポリシーをめぐる透明性が重要です。
この目的のために、現実世界のLLM APIプロバイダーの迅速なキャッシュを検出するために、統計監査を開発および実施します。
OpenAIを含む7つのAPIプロバイダーのユーザー間でグローバルなキャッシュ共有を検出し、ユーザーのプロンプトに関するプライバシーの潜在的な漏れをもたらします。
迅速なキャッシングによるタイミングの変動は、モデルアーキテクチャに関する情報の漏れをもたらす可能性があります。
つまり、Openaiの埋め込みモデルはデコーダーのみの変圧器であり、以前は公開されていなかったという証拠が見つかりました。

要約(オリジナル)

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users’ prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users’ prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI’s embedding model is a decoder-only Transformer, which was previously not publicly known.

arxiv情報

著者 Chenchen Gu,Xiang Lisa Li,Rohith Kuditipudi,Percy Liang,Tatsunori Hashimoto
発行日 2025-02-11 18:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Auditing Prompt Caching in Language Model APIs はコメントを受け付けていません

DarwinLM: Evolutionary Structured Pruning of Large Language Models

要約

大規模な言語モデル(LLMS)は、さまざまなNLPタスクで大きな成功を収めています。
ただし、特にリアルタイムのアプリケーションでは、大規模な計算コストが広く使用されています。
構造化された剪定は、モデルを圧縮し、ハードウェア環境に関係なく、エンドツーエンドの速度の改善を直接提供することにより、効果的なソリューションを提供します。
一方、モデルのさまざまなコンポーネントは、剪定に対してさまざまな感度を示し、\ emphing {非uniform}モデル圧縮を要求します。
ただし、剪定方法では、有能な下部構造を特定するだけでなく、圧縮後のトレーニングも説明する必要があります。
この目的のために、\ sysnameを提案します。これは、\ emphing {training-aware}構造化された剪定の方法です。
\ sysNameは、進化の検索プロセスに基づいて構築され、突然変異を通じて各世代に複数の子孫モデルを生成し、生存のための適者を選択します。
トレーニング後の効果を評価するために、子孫集団内に軽量の多段階トレーニングプロセスを組み込み、トークンの数を徐々に増やし、各選択段階でパフォーマンスの低いモデルを排除します。
Llama-2-7B、Llama-3.1-8B、QWEN-2.5-14B-Instructの広範な実験を通じて、私たちの方法を検証し、構造化された剪定の最先端のパフォーマンスを達成します。
たとえば、\ sysnameは、圧縮後のトレーニング中に5ドルの時間$ $ $ $のトレーニングデータを必要としながら、shearedllamaを上回ります。

要約(オリジナル)

Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for \emph{non-uniform} model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for \emph{training-aware} structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring $5\times$ less training data during post-compression training.

arxiv情報

著者 Shengkun Tang,Oliver Sieberling,Eldar Kurtic,Zhiqiang Shen,Dan Alistarh
発行日 2025-02-11 18:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DarwinLM: Evolutionary Structured Pruning of Large Language Models はコメントを受け付けていません

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

要約

ソフトウェアエンジニアは、主に既存のプログラムを編集してコードを作成します。
対照的に、言語モデル(LMS)は、単一のパスでプログラムを自動網羅して統合します。
これの1つの説明は、順次編集データの希少性です。
コード合成のための高品質の命令データは希少ですが、合成のための編集データはさらに少ないです。
このギャップを埋めるために、Lintseqと呼ばれる合成データ生成アルゴリズムを開発します。
このアルゴリズムは、リナーを使用して、ソースコードの相互依存線全体で手続き的にサンプリングすることにより、プログラムを合成編集のシーケンスにリファクタリングします。
LintSeqでサンプリングされた合成編集は、プログラミング言語の構文とセマンティクスを反映しています。
アルゴリズムをテストするために、命令 +プログラムのペアのデータセットを命令 +プログラムディフシーケンスタプルにリファクタリングするために使用します。
次に、このデータセットの再要素バージョンとオリジナルバージョンの両方で、2.6Bから14Bのパラメーターの範囲の一連の小さなLMSを微調整します。
編集シーケンスコードLMSをHumanval、MBPP(+)、CodeContests、DS-1000、およびBigCodebenchのベースラインと比較する包括的な評価を実行します。
コードマッチを繰り返し合成するか、パス@1のベースラインを上回るモデルを微調整し、テスト時間フロップの合計関数としてより高いPASS@Kを越えてより良いスケーリングを示すことを示します。
最後に、コードの理解のために自分の小さなLMSを前に入れます。
これらのモデルを微調整して、Codet5+、アルファコード、コーデックスなどの同様のスケールの既存のコード言語モデルと比較して、HumanevalおよびMBPP(+)でコード編集の結果を合成することを示します。

要約(オリジナル)

Software engineers mainly write code by editing existing programs. In contrast, language models (LMs) autoregressively synthesize programs in a single pass. One explanation for this is the scarcity of sequential edit data. While high-quality instruction data for code synthesis is scarce, edit data for synthesis is even scarcer. To fill this gap, we develop a synthetic data generation algorithm called LintSeq. This algorithm refactors programs into sequences of synthetic edits by using a linter to procedurally sample across interdependent lines of source code. Synthetic edits sampled with LintSeq reflect the syntax and semantics of their programming language. To test the algorithm, we use it to refactor a dataset of instruction + program pairs into instruction + program-diff-sequence tuples. Then, we fine-tune a series of smaller LMs ranging from 2.6B to 14B parameters on both the re-factored and original versions of this dataset. We perform comprehensive evaluations comparing edit sequence code LMs against baselines on HumanEval, MBPP(+), CodeContests, DS-1000, and BigCodeBench. We show that models fine-tuned to iteratively synthesize code match or outperform baselines on pass@1, and exhibit better scaling across higher pass@k as a function of total test-time FLOPs. Finally, we also pretrain our own tiny LMs for code understanding. We show that fine-tuning these models to synthesize code edit-by-edit results in strong performance on HumanEval and MBPP(+) compared to existing code language models of similar scale such as CodeT5+, AlphaCode, and Codex.

arxiv情報

著者 Ulyana Piterbarg,Lerrel Pinto,Rob Fergus
発行日 2025-02-11 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Training Language Models on Synthetic Edit Sequences Improves Code Synthesis はコメントを受け付けていません

DMWM: Dual-Mind World Model with Long-Term Imagination

要約

世界モデルの想像力は、エージェントがサンプル効率の良い方法で長老のポリシーを学ぶことができるために重要です。
既存の再発状態空間モデル(RSSM)ベースの世界モデルは、環境ダイナミクスをキャプチャするための単一ステップの統計的推論に依存しているため、予測エラーの蓄積により長期的な想像力タスクを実行できません。
人間の認知のデュアルプロセス理論に触発された私たちは、論理的な推論を統合して想像力を論理的な一貫性を可能にする新しいデュアルマインドワールドモデル(DMWM)フレームワークを提案します。
DMWMは、直感的な方法で状態遷移を処理するRSSMベースのシステム1(RSSM-S1)コンポーネントと、論理統合されたニューラルネットワークベースのシステム2(LINN-S2)コンポーネントの2つのコンポーネントで構成されています。
階層的な深い論理推論。
システム間フィードバックメカニズムは、想像力が実際の環境の論理ルールに従うように設計されています。
提案されたフレームワークは、DMControlスイートからの長期計画を必要とするベンチマークタスクで評価されます。
広範な実験結果は、提案されたフレームワークが、最先端の世界モデルにおける論理的一貫性、試験効率、データ効率、長期的な想像力の観点から大幅な改善をもたらすことを示しています。

要約(オリジナル)

Imagination in world models is crucial for enabling agents to learn long-horizon policy in a sample-efficient manner. Existing recurrent state-space model (RSSM)-based world models depend on single-step statistical inference to capture the environment dynamics, and, hence, they are unable to perform long-term imagination tasks due to the accumulation of prediction errors. Inspired by the dual-process theory of human cognition, we propose a novel dual-mind world model (DMWM) framework that integrates logical reasoning to enable imagination with logical consistency. DMWM is composed of two components: an RSSM-based System 1 (RSSM-S1) component that handles state transitions in an intuitive manner and a logic-integrated neural network-based System 2 (LINN-S2) component that guides the imagination process through hierarchical deep logical reasoning. The inter-system feedback mechanism is designed to ensure that the imagination process follows the logical rules of the real environment. The proposed framework is evaluated on benchmark tasks that require long-term planning from the DMControl suite. Extensive experimental results demonstrate that the proposed framework yields significant improvements in terms of logical coherence, trial efficiency, data efficiency and long-term imagination over the state-of-the-art world models.

arxiv情報

著者 Lingyi Wang,Rashed Shelim,Walid Saad,Naren Ramakrishnan
発行日 2025-02-11 14:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DMWM: Dual-Mind World Model with Long-Term Imagination はコメントを受け付けていません