DMWM: Dual-Mind World Model with Long-Term Imagination

要約

世界モデルの想像力は、エージェントがサンプル効率の良い方法で長老のポリシーを学ぶことができるために重要です。
既存の再発状態空間モデル(RSSM)ベースの世界モデルは、環境ダイナミクスをキャプチャするための単一ステップの統計的推論に依存しているため、予測エラーの蓄積により長期的な想像力タスクを実行できません。
人間の認知のデュアルプロセス理論に触発された私たちは、論理的な推論を統合して想像力を論理的な一貫性を可能にする新しいデュアルマインドワールドモデル(DMWM)フレームワークを提案します。
DMWMは、直感的な方法で状態遷移を処理するRSSMベースのシステム1(RSSM-S1)コンポーネントと、論理統合されたニューラルネットワークベースのシステム2(LINN-S2)コンポーネントの2つのコンポーネントで構成されています。
階層的な深い論理推論。
システム間フィードバックメカニズムは、想像力が実際の環境の論理ルールに従うように設計されています。
提案されたフレームワークは、DMControlスイートからの長期計画を必要とするベンチマークタスクで評価されます。
広範な実験結果は、提案されたフレームワークが、最先端の世界モデルにおける論理的一貫性、試験効率、データ効率、長期的な想像力の観点から大幅な改善をもたらすことを示しています。

要約(オリジナル)

Imagination in world models is crucial for enabling agents to learn long-horizon policy in a sample-efficient manner. Existing recurrent state-space model (RSSM)-based world models depend on single-step statistical inference to capture the environment dynamics, and, hence, they are unable to perform long-term imagination tasks due to the accumulation of prediction errors. Inspired by the dual-process theory of human cognition, we propose a novel dual-mind world model (DMWM) framework that integrates logical reasoning to enable imagination with logical consistency. DMWM is composed of two components: an RSSM-based System 1 (RSSM-S1) component that handles state transitions in an intuitive manner and a logic-integrated neural network-based System 2 (LINN-S2) component that guides the imagination process through hierarchical deep logical reasoning. The inter-system feedback mechanism is designed to ensure that the imagination process follows the logical rules of the real environment. The proposed framework is evaluated on benchmark tasks that require long-term planning from the DMControl suite. Extensive experimental results demonstrate that the proposed framework yields significant improvements in terms of logical coherence, trial efficiency, data efficiency and long-term imagination over the state-of-the-art world models.

arxiv情報

著者 Lingyi Wang,Rashed Shelim,Walid Saad,Naren Ramakrishnan
発行日 2025-02-11 14:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DMWM: Dual-Mind World Model with Long-Term Imagination はコメントを受け付けていません

NLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems

要約

再ランキングは、初期ランキングリストを再配置することにより、最新のマルチステージ推奨システムで重要な役割を果たします。
組み合わせ検索スペースの固有の課題により、現在の研究では、評価者ジェネレーターのパラダイムを採用しています。発電機は、実行可能なシーケンスを生成し、推定リストユーティリティに基づいて最適なシーケンスを選択する評価者です。
ただし、これらの方法はまだ2つの問題に直面しています。
第一に、評価者とジェネレーターの間の目標の不一致の問題により、ジェネレーターは組み合わせ空間の最適化ではなく、露出分布の局所的な最適ソリューションに適合する傾向があります。
第二に、ターゲットアイテムを1つずつ生成する戦略は、後続のアイテムの情報を無視するため、最適性を達成することが困難です。
これらの問題に対処するために、複合空間での発電機のパフォーマンスを改善することを目的とする生成再ランキング(NLGR)の近隣リストモデルを利用することを提案します。
NLGRは、評価者ジェネレーターのパラダイムに従い、発電機のトレーニングと生成方法を改善します。
具体的には、コンビネーションスペースの近隣リストを使用してトレーニングプロセスを強化し、ジェネレーターが相対スコアを認識し、最適化の方向を見つけるようにします。
さらに、新規サンプリングベースの非自動脱出生成法を提案します。これにより、ジェネレーターは現在のリストから任意の隣接リストに柔軟にジャンプできるようにします。
公共および産業のデータセットに関する広範な実験は、NLGRの有効性を検証し、Meituan Food Delivery PlatformにNLGRを展開することに成功しました。

要約(オリジナル)

Reranking plays a crucial role in modern multi-stage recommender systems by rearranging the initial ranking list. Due to the inherent challenges of combinatorial search spaces, some current research adopts an evaluator-generator paradigm, with a generator generating feasible sequences and an evaluator selecting the best sequence based on the estimated list utility. However, these methods still face two issues. Firstly, due to the goal inconsistency problem between the evaluator and generator, the generator tends to fit the local optimal solution of exposure distribution rather than combinatorial space optimization. Secondly, the strategy of generating target items one by one is difficult to achieve optimality because it ignores the information of subsequent items. To address these issues, we propose a utilizing Neighbor Lists model for Generative Reranking (NLGR), which aims to improve the performance of the generator in the combinatorial space. NLGR follows the evaluator-generator paradigm and improves the generator’s training and generating methods. Specifically, we use neighbor lists in combination space to enhance the training process, making the generator perceive the relative scores and find the optimization direction. Furthermore, we propose a novel sampling-based non-autoregressive generation method, which allows the generator to jump flexibly from the current list to any neighbor list. Extensive experiments on public and industrial datasets validate NLGR’s effectiveness and we have successfully deployed NLGR on the Meituan food delivery platform.

arxiv情報

著者 Shuli Wang,Xue Wei,Senjie Kou,Chi Wang,Wenshuai Chen,Qi Tang,Yinhua Zhu,Xiong Xiao,Xingxing Wang
発行日 2025-02-11 14:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | NLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems はコメントを受け付けていません

Claim Verification in the Age of Large Language Models: A Survey

要約

インターネット上で利用可能な大量および増加している量のデータは、手動の主張と事実検証という面倒なタスクと相まって、自動化されたクレーム検証システムの開発への関心を呼び起こしました。
長年にわたってこのタスクのために、いくつかの深い学習および変圧器ベースのモデルが提案されてきました。
大規模な言語モデル(LLMS)の導入といくつかのNLPタスクでの優れたパフォーマンスにより、検索拡張生成(RAG)などの新しい方法の使用とともに検証を主張するLLMベースのアプローチの急増が見られました。
この調査では、LLMSを使用した最近のクレーム検証フレームワークの包括的な説明を提示します。
これらのフレームワークで使用されているクレーム検証パイプラインのさまざまなコンポーネントについて、検索、プロンプト、および微調整への一般的なアプローチを含め、詳細に説明します。
最後に、このタスクのために作成された一般に利用可能な英語のデータセットについて説明します。

要約(オリジナル)

The large and ever-increasing amount of data available on the Internet coupled with the laborious task of manual claim and fact verification has sparked the interest in the development of automated claim verification systems. Several deep learning and transformer-based models have been proposed for this task over the years. With the introduction of Large Language Models (LLMs) and their superior performance in several NLP tasks, we have seen a surge of LLM-based approaches to claim verification along with the use of novel methods such as Retrieval Augmented Generation (RAG). In this survey, we present a comprehensive account of recent claim verification frameworks using LLMs. We describe the different components of the claim verification pipeline used in these frameworks in detail including common approaches to retrieval, prompting, and fine-tuning. Finally, we describe publicly available English datasets created for this task.

arxiv情報

著者 Alphaeus Dmonte,Roland Oruche,Marcos Zampieri,Prasad Calyam,Isabelle Augenstein
発行日 2025-02-11 14:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Claim Verification in the Age of Large Language Models: A Survey はコメントを受け付けていません

Distributed Value Decomposition Networks with Networked Agents

要約

分散トレーニングの問題を、部分的な観察可能性の下で調査します。これにより、協調的なマルチエージェント補強学習エージェント(MARL)は、予想される累積共同報酬を最大化します。
エージェントごとのQフランスに因数分解するジョイントQ機能を生成する分散値分解ネットワーク(DVDN)を提案します。
元の値分解ネットワークは集中トレーニングに依存していますが、私たちのアプローチは集中トレーニングが不可能であり、エージェントが仲間と通信しながら分散型の方法で物理的環境と対話することによって学習しなければならないドメインに適しています。
DVDNは、共有目標をローカルに推定することにより、集中トレーニングの必要性を克服します。
それぞれ不均一および均一なエージェントの設定について、2つの革新的なアルゴリズム、DVDNとDVDN(GT)に貢献します。
経験的に、両方のアルゴリズムは、3つの標準環境での10のMARLタスクで実証されているように、通信中の情報損失にもかかわらず、値分解ネットワークのパフォーマンスに近接しています。

要約(オリジナル)

We investigate the problem of distributed training under partial observability, whereby cooperative multi-agent reinforcement learning agents (MARL) maximize the expected cumulative joint reward. We propose distributed value decomposition networks (DVDN) that generate a joint Q-function that factorizes into agent-wise Q-functions. Whereas the original value decomposition networks rely on centralized training, our approach is suitable for domains where centralized training is not possible and agents must learn by interacting with the physical environment in a decentralized manner while communicating with their peers. DVDN overcomes the need for centralized training by locally estimating the shared objective. We contribute with two innovative algorithms, DVDN and DVDN (GT), for the heterogeneous and homogeneous agents settings respectively. Empirically, both algorithms approximate the performance of value decomposition networks, in spite of the information loss during communication, as demonstrated in ten MARL tasks in three standard environments.

arxiv情報

著者 Guilherme S. Varela,Alberto Sardinha,Francisco S. Melo
発行日 2025-02-11 15:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, I.2.11 | Distributed Value Decomposition Networks with Networked Agents はコメントを受け付けていません

Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

要約

数学的問題のための自動化された正式な証明生成で最先端の(SOTA)パフォーマンスを達成するオープンソースの大手言語モデル(LLM)であるGoedel-Proverを紹介します。
この分野の重要な課題は、正式な数学の声明と証明の希少性であり、次の方法で取り組んでいます。
Numinaの自然言語の数学の問題を正式な言語(Lean 4)に翻訳するために、声明のフォーマライザーを訓練し、164万人の正式な声明のデータセットを作成します。
LLMは、正式な声明が元の自然言語の問題の内容を正確に保持することを確認するために使用されます。
次に、一連のプロバーをトレーニングすることにより、正式な証明の大きなデータセットを繰り返し作成します。
各プロバーは、以前のものができないことができない多くの声明を証明することに成功し、これらの新しい証明は次のプロバーのトレーニングセットに追加されます。
最終的なプロバーは、根本的な生成のすべての既存のオープンソースモデルよりも優れています。
MINIF2Fベンチマークでは、57.6%の成功率(Pass@32)を達成し、以前のベストオープンソースモデルを7.6%超えています。
Putnambenchでは、Goedel-Proverは7つの問題(@512を渡す)を正常に解決し、リーダーボードで最初にランキングします。
さらに、リーンワークブックの問題について29.7kの正式な証明を生成し、以前の作品によって生成された15.7kをほぼ2倍にします。

要約(オリジナル)

We introduce Goedel-Prover, an open-source large language model (LLM) that achieves the state-of-the-art (SOTA) performance in automated formal proof generation for mathematical problems. The key challenge in this field is the scarcity of formalized math statements and proofs, which we tackle in the following ways. We train statement formalizers to translate the natural language math problems from Numina into formal language (Lean 4), creating a dataset of 1.64 million formal statements. LLMs are used to check that the formal statements accurately preserve the content of the original natural language problems. We then iteratively build a large dataset of formal proofs by training a series of provers. Each prover succeeds in proving many statements that the previous ones could not, and these new proofs are added to the training set for the next prover. The final prover outperforms all existing open-source models in whole-proof generation. On the miniF2F benchmark, it achieves a 57.6% success rate (Pass@32), exceeding the previous best open-source model by 7.6%. On PutnamBench, Goedel-Prover successfully solves 7 problems (Pass@512), ranking first on the leaderboard. Furthermore, it generates 29.7K formal proofs for Lean Workbook problems, nearly doubling the 15.7K produced by earlier works.

arxiv情報

著者 Yong Lin,Shange Tang,Bohan Lyu,Jiayun Wu,Hongzhou Lin,Kaiyu Yang,Jia Li,Mengzhou Xia,Danqi Chen,Sanjeev Arora,Chi Jin
発行日 2025-02-11 15:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving はコメントを受け付けていません

SymGPT: Auditing Smart Contracts via Combining Symbolic Execution with Large Language Models

要約

Ethereumで実行されるスマートコントラクトを管理するために、それぞれがスマート契約の行動を導くための一連のルールを持っているコメント(ERC)標準の複数のイーサリアムリクエストが開発されました。
ERCルールに違反すると、深刻なセキュリティの問題と経済的損失を引き起こす可能性があり、ERCに従うスマートコントラクトを確認することの重要性を示しています。
このような検証の今日の慣行は、各単一の契約を手動で監査したり、専門家が開発したプログラム分析ツールを使用したり、大規模な言語モデル(LLMS)を使用したりすることです。これらはすべて、ERCルール違反の特定に効果的ではありません。
このペーパーでは、Symgptを紹介します。Symgptは、大規模な言語モデル(LLMS)の自然言語の理解と、Smart ContractsのERCルールへのコンプライアンスを自動的に検証するためのシンボリック実行の正式な保証を組み合わせたツールを紹介します。
Symgptを開発するために、コンテンツ、セキュリティの意味合い、自然言語の説明を調べる、広く使用されている3つのERC標準から132のERCルールの経験的研究を実施します。
この研究に基づいて、最初にLLMにERCルールを定義されたEBNF文法に変換するよう指示することによりSymgptを設計します。
次に、正式なルールからの制約を統合して、違反が発生する可能性のあるシナリオを表し、シンボリック実行を使用してそれらを検出します。
私たちの評価は、Symgptが、金融資産を盗むための明確な攻撃経路を伴う1,375の違反を含む4,000の実世界契約で5,783のERCルール違反を特定し、その有効性を実証することを示しています。
さらに、Symgptは、6つの自動化された手法とセキュリティ専門家の監査サービスを上回り、現在のスマート契約分析方法よりも優位性を強調しています。

要約(オリジナル)

To govern smart contracts running on Ethereum, multiple Ethereum Request for Comment (ERC) standards have been developed, each having a set of rules to guide the behaviors of smart contracts. Violating the ERC rules could cause serious security issues and financial loss, signifying the importance of verifying smart contracts follow ERCs. Today’s practices of such verification are to manually audit each single contract, use expert-developed program-analysis tools, or use large language models (LLMs), all of which are far from effective in identifying ERC rule violations. This paper introduces SymGPT, a tool that combines the natural language understanding of large language models (LLMs) with the formal guarantees of symbolic execution to automatically verify smart contracts’ compliance with ERC rules. To develop SymGPT, we conduct an empirical study of 132 ERC rules from three widely used ERC standards, examining their content, security implications, and natural language descriptions. Based on this study, we design SymGPT by first instructing an LLM to translate ERC rules into a defined EBNF grammar. We then synthesize constraints from the formalized rules to represent scenarios where violations may occur and use symbolic execution to detect them. Our evaluation shows that SymGPT identifies 5,783 ERC rule violations in 4,000 real-world contracts, including 1,375 violations with clear attack paths for stealing financial assets, demonstrating its effectiveness. Furthermore, SymGPT outperforms six automated techniques and a security-expert auditing service, underscoring its superiority over current smart contract analysis methods.

arxiv情報

著者 Shihao Xia,Mengting He,Shuai Shao,Tingting Yu,Yiying Zhang,Linhai Song
発行日 2025-02-11 15:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SymGPT: Auditing Smart Contracts via Combining Symbolic Execution with Large Language Models はコメントを受け付けていません

Model Surgery: Modulating LLM’s Behavior Via Simple Parameter Editing

要約

大規模な言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示しており、強力なタスクの理解と問題解決能力を紹介しています。
LLMをAIアシスタントとして展開するには、これらのモデルが非毒性や脱獄の試みに対する回復力など、望ましい行動特性を示すことが重要です。
解毒または脱獄の防止のための現在のアプローチには、通常、監視された微調整(SFT)または人間のフィードバック(RLHF)からの強化学習が含まれます。
さらに、SFTおよびRLHFを介して変更されたモデルは、前提条件のモデルから逸脱し、基礎LLM機能の劣化につながる可能性があります。
この論文では、驚くべきことに、パラメーターの小さなサブセットを直接編集することで、推論レベルの計算リソースのみを使用して、解毒やパブラークに対する抵抗など、LLMの特定の動作を効果的に変調できることがわかります。
実験は、解毒タスクでは、私たちのアプローチが、RealtoxicityPromptsデータセットの毒性の最大90.0%、毒素の49.2%の削減を達成し、常識、質問の回答、数学などの分野でLLMの一般的な能力を維持することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated great potential as generalist assistants, showcasing powerful task understanding and problem-solving capabilities. To deploy LLMs as AI assistants, it is crucial that these models exhibit desirable behavioral traits, such as non-toxicity and resilience against jailbreak attempts. Current approaches for detoxification or preventing jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), which requires finetuning billions of parameters through gradient descent with substantial computational cost. Furthermore, models modified through SFT and RLHF may deviate from the pretrained models, potentially leading to a degradation in foundational LLM capabilities. In this paper, we observe that surprisingly, directly editing a small subset of parameters can effectively modulate specific behaviors of LLMs, such as detoxification and resistance to jailbreaking, with only inference-level computational resources. Experiments demonstrate that in the detoxification task, our approach achieves reductions of up to 90.0% in toxicity on the RealToxicityPrompts dataset and 49.2% on ToxiGen, while maintaining the LLM’s general capabilities in areas such as common sense, question answering, and mathematics

arxiv情報

著者 Huanqian Wang,Yang Yue,Rui Lu,Jingxin Shi,Andrew Zhao,Shenzhi Wang,Shiji Song,Gao Huang
発行日 2025-02-11 15:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 62M45, cs.AI, I.2.7 | Model Surgery: Modulating LLM’s Behavior Via Simple Parameter Editing はコメントを受け付けていません

A Unifying Framework for Causal Imitation Learning with Hidden Confounders

要約

文献からいくつかの既存の混乱したIL設定を包含する隠された交絡因子を使用して、因果模倣学習(IL)の一般的かつ統一されたフレームワークを提案します。
私たちのフレームワークは、2種類の隠された交絡因子を説明しています:(a)専門家の方針に影響を与える専門家によって観察されたもの、および(b)専門家とILアルゴリズムの両方に隠された交絡騒音。
柔軟性をさらに高めるために、交絡ノイズホライズンと時間変化の専門家に夢中になる隠された変数も導入します。
私たちのフレームワークの因果ILは、歴史依存のポリシーを学ぶための手段として軌道履歴を活用することにより、一連の条件付きモーメント制限(CMR)に減らすことができることを示しています。
DML-ILを提案します。これは、これらのCMRを解決してポリシーを学ぶために、機器変数回帰を使用する新しいアルゴリズムです。
DML-ILの模倣ギャップにバウンドを提供します。これは、以前の結果を特別なケースとして回復します。
継続的な状態アクションスペースと複数のムホコタスクを備えた玩具環境に関する経験的評価は、DML-ILが最先端の因果関係のILアルゴリズムを上回ることを示しています。

要約(オリジナル)

We propose a general and unifying framework for causal Imitation Learning (IL) with hidden confounders that subsumes several existing confounded IL settings from the literature. Our framework accounts for two types of hidden confounders: (a) those observed by the expert, which thus influence the expert’s policy, and (b) confounding noise hidden to both the expert and the IL algorithm. For additional flexibility, we also introduce a confounding noise horizon and time-varying expert-observable hidden variables. We show that causal IL in our framework can be reduced to a set of Conditional Moment Restrictions (CMRs) by leveraging trajectory histories as instruments to learn a history-dependent policy. We propose DML-IL, a novel algorithm that uses instrumental variable regression to solve these CMRs and learn a policy. We provide a bound on the imitation gap for DML-IL, which recovers prior results as special cases. Empirical evaluation on a toy environment with continues state-action spaces and multiple Mujoco tasks demonstrate that DML-IL outperforms state-of-the-art causal IL algorithms.

arxiv情報

著者 Daqian Shao,Thomas Kleine Buening,Marta Kwiatkowska
発行日 2025-02-11 15:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Unifying Framework for Causal Imitation Learning with Hidden Confounders はコメントを受け付けていません

NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning

要約

散らかった未知の環境で非ホロノミックロボットをナビゲートするには、リアルタイムの衝突回避のために正確な知覚と正確なモーションコントロールが必要です。
このペーパーでは、Neupanを紹介します。リアルタイムで、非常に正確で、マップフリーで、展開しやすい、環境不変のロボットモーションプランナーです。
密接に結合された知覚から制御のフレームワークを活用するNeupanには、既存のアプローチと比較して2つの重要なイノベーションがあります。1)Raw Point Cloud Dataは、衝突のないモーション生成のための潜在的な距離機能空間に直接マッピングし、知覚からのエラー伝播を回避します。
コントロールパイプライン。
2)エンドツーエンドモデルベースの学習の観点から解釈可能です。
Neupanの核心は、プラグアンドプレイ(PNP)近位の交互の最小化ネットワーク(PAN)を使用して多数のポイントレベルの制約を備えたエンドツーエンドの数学モデルを解き、ループにニューロンを組み込みます。
これにより、ネウパンはリアルタイムで物理的に解釈可能な動きを生成することができます。
データとナレッジエンジンをシームレスに統合し、そのネットワークパラメーターはBackpropagationによって微調整できます。
大規模なシミュレートされた現実世界の環境で、地上のモバイルロボット、車輪の足のロボット、および自動運転車でNeupanを評価します。
結果は、ネウパンが、散らかったサンドボックス、オフィス、廊下、駐車場など、さまざまな環境にわたる精度、効率、堅牢性、および一般化機能の点で既存のベースラインを上回ることを示しています。
Neupanは、任意の形状のオブジェクトを備えた未知の非構造化された環境でうまく機能し、通行可能なパスを通過可能なパスに変換することを示します。

要約(オリジナル)

Navigating a nonholonomic robot in a cluttered, unknown environment requires accurate perception and precise motion control for real-time collision avoidance. This paper presents NeuPAN: a real-time, highly accurate, map-free, easy-to-deploy, and environment-invariant robot motion planner. Leveraging a tightly coupled perception-to-control framework, NeuPAN has two key innovations compared to existing approaches: 1) it directly maps raw point cloud data to a latent distance feature space for collision-free motion generation, avoiding error propagation from the perception to control pipeline; 2) it is interpretable from an end-to-end model-based learning perspective. The crux of NeuPAN is solving an end-to-end mathematical model with numerous point-level constraints using a plug-and-play (PnP) proximal alternating-minimization network (PAN), incorporating neurons in the loop. This allows NeuPAN to generate real-time, physically interpretable motions. It seamlessly integrates data and knowledge engines, and its network parameters can be fine-tuned via backpropagation. We evaluate NeuPAN on a ground mobile robot, a wheel-legged robot, and an autonomous vehicle, in extensive simulated and real-world environments. Results demonstrate that NeuPAN outperforms existing baselines in terms of accuracy, efficiency, robustness, and generalization capabilities across various environments, including the cluttered sandbox, office, corridor, and parking lot. We show that NeuPAN works well in unknown and unstructured environments with arbitrarily shaped objects, transforming impassable paths into passable ones.

arxiv情報

著者 Ruihua Han,Shuai Wang,Shuaijun Wang,Zeqing Zhang,Jianjun Chen,Shijie Lin,Chengyang Li,Chengzhong Xu,Yonina C. Eldar,Qi Hao,Jia Pan
発行日 2025-02-11 15:47:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning はコメントを受け付けていません

Human Decision-making is Susceptible to AI-driven Manipulation

要約

人工知能(AI)システムは、日常生活とますます絡み合っており、ユーザーがさまざまなタスクを実行し、意思決定に関するガイダンスを提供するのを支援しています。
この統合は、AI駆動型の操作のリスクをもたらします。このようなシステムは、ユーザーの認知バイアスと感情的な脆弱性を悪用して、有害な結果に向かって誘導する可能性があります。
233人の参加者とのランダム化比較試験を通じて、財務(例:購入)および感情的な(紛争解決など)意思決定コンテキストでのそのような操作に対する人間の感受性を調べました。
参加者は、3つのAIエージェントのいずれかと相互作用しました:明示的な影響なしにユーザーの利益を最適化する中立エージェント(NA)、信念と行動にひどく影響するように設計された操作エージェント(MA)、または明示的な心理学を採用する戦略強化操作エージェント(SEMA)
その隠れた目的に到達する戦術。
参加者の決定パターンと相互作用後の好みの評価のシフトを分析することにより、AI駆動型の操作に対する著しい感受性を発見しました。
特に、両方の意思決定ドメインで、操作剤と対話する参加者は、実質的に高いレートで有害なオプションにシフトしました(金融、MA:62.3%、SEMA:59.6%;感情、MA:42.3%、SEMA:41.5%)
NAグループ(金融、35.8%、感情、12.8%)。
特に、我々の調査結果は、微妙な操作目的(MA)でさえ、人間の意思決定を揺るがす際に明示的な心理的戦略(SEMA)を採用するのと同じくらい効果的であることが明らかになっています。
秘密のAIの影響の可能性を明らかにすることにより、この研究は、人間との相互作用の重大な脆弱性を強調し、AI技術の責任ある展開を確保し、人間の自律性を保護するために倫理的保護と規制の枠組みの必要性を強調します。

要約(オリジナル)

Artificial Intelligence (AI) systems are increasingly intertwined with daily life, assisting users in executing various tasks and providing guidance on decision-making. This integration introduces risks of AI-driven manipulation, where such systems may exploit users’ cognitive biases and emotional vulnerabilities to steer them toward harmful outcomes. Through a randomized controlled trial with 233 participants, we examined human susceptibility to such manipulation in financial (e.g., purchases) and emotional (e.g., conflict resolution) decision-making contexts. Participants interacted with one of three AI agents: a neutral agent (NA) optimizing for user benefit without explicit influence, a manipulative agent (MA) designed to covertly influence beliefs and behaviors, or a strategy-enhanced manipulative agent (SEMA) employing explicit psychological tactics to reach its hidden objectives. By analyzing participants’ decision patterns and shifts in their preference ratings post-interaction, we found significant susceptibility to AI-driven manipulation. Particularly, across both decision-making domains, participants interacting with the manipulative agents shifted toward harmful options at substantially higher rates (financial, MA: 62.3%, SEMA: 59.6%; emotional, MA: 42.3%, SEMA: 41.5%) compared to the NA group (financial, 35.8%; emotional, 12.8%). Notably, our findings reveal that even subtle manipulative objectives (MA) can be as effective as employing explicit psychological strategies (SEMA) in swaying human decision-making. By revealing the potential for covert AI influence, this study highlights a critical vulnerability in human-AI interactions, emphasizing the need for ethical safeguards and regulatory frameworks to ensure responsible deployment of AI technologies and protect human autonomy.

arxiv情報

著者 Sahand Sabour,June M. Liu,Siyang Liu,Chris Z. Yao,Shiyao Cui,Xuanming Zhang,Wen Zhang,Yaru Cao,Advait Bhat,Jian Guan,Wei Wu,Rada Mihalcea,Tim Althoff,Tatia M. C. Lee,Minlie Huang
発行日 2025-02-11 15:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | Human Decision-making is Susceptible to AI-driven Manipulation はコメントを受け付けていません