Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society

要約

人工知能(AI)システムはますます強力で自律的になりつつあり、人間の知能レベル、すなわち人工的な密集(ASI)を超えるように進行する可能性があります。
AIからASIへの進行中、それは人間のコントロールを超え、人間の価値に違反し、さらには極端な場合の不可逆的な壊滅的な結果につながる可能性があります。
これにより、対処する必要がある差し迫った問題が発生します。スーパーアライメントは、人間よりもはるかに賢いAIシステムが人間(互換性のある)意図と価値に合わせたままであることを保証します。
既存のスケーラブルな監視と弱くて強い一般化方法は、ASIに直面すると実質的に実行不可能で不十分であることが判明する可能性があります。
より安全で多元的なフレームワークとスーパーアライメントのアプローチを探求する必要があります。
この論文では、持続可能な共生協会への人間との共同調整として超整合を再定義し、外部の監視と本質的な積極的な整合性を統合するフレームワークを強調します。
外部監視の超整合は、人類の進化する価値と継続的な整合を達成するために、解釈可能な自動化された評価と修正によって補足される、人間中心の究極の決定に基づいている必要があります。
固有の積極的な超整合は、自己、他者、社会の深い理解に根ざし、自己認識、自己反省、共感を自発的に推測するための自己認識、自己反省、共感を統合し、悪とは人間の幸福を積極的に考慮し、最終的に人間の協力を介して積極的に検討します。
外部主導の監視と本質的に主導の積極的なアライメントとの統合は、人間と有益なAGIとASIを達成するための方法を舗装し、人間のために、そして共生生態学のために、持続可能な共生社会を強化します。

要約(オリジナル)

Artificial Intelligence (AI) systems are becoming increasingly powerful and autonomous, and may progress to surpass human intelligence levels, namely Artificial Superintelligence (ASI). During the progression from AI to ASI, it may exceed human control, violate human values, and even lead to irreversible catastrophic consequences in extreme cases. This gives rise to a pressing issue that needs to be addressed: superalignment, ensuring that AI systems much smarter than humans, remain aligned with human (compatible) intentions and values. Existing scalable oversight and weak-to-strong generalization methods may prove substantially infeasible and inadequate when facing ASI. We must explore safer and more pluralistic frameworks and approaches for superalignment. In this paper, we redefine superalignment as the human-AI co-alignment towards a sustainable symbiotic society, and highlight a framework that integrates external oversight and intrinsic proactive alignment. External oversight superalignment should be grounded in human-centered ultimate decision, supplemented by interpretable automated evaluation and correction, to achieve continuous alignment with humanity’s evolving values. Intrinsic proactive superalignment is rooted in a profound understanding of the Self, others, and society, integrating self-awareness, self-reflection, and empathy to spontaneously infer human intentions, distinguishing good from evil and proactively considering human well-being, ultimately attaining human-AI co-alignment through iterative interaction. The integration of externally-driven oversight with intrinsically-driven proactive alignment empowers sustainable symbiotic societies through human-AI co-alignment, paving the way for achieving safe and beneficial AGI and ASI for good, for human, and for a symbiotic ecology.

arxiv情報

著者 Yi Zeng,Feifei Zhao,Yuwei Wang,Enmeng Lu,Yaodong Yang,Lei Wang,Chao Liu,Yitao Liang,Dongcheng Zhao,Bing Han,Haibo Tong,Yao Liang,Dongqi Liang,Kang Sun,Boyuan Chen,Jinyu Fan
発行日 2025-04-25 15:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society はコメントを受け付けていません

The Moral Mind(s) of Large Language Models

要約

大規模な言語モデル(LLM)が倫理的および社会的利害関係のあるタスクにますます参加するにつれて、重要な疑問が生じます。彼らは、彼らの決定を導く道徳的な好みの一貫した構造であり、この構造はモデル間でどの程度共有されているかを示していますか?
これを調査するために、明らかにされた選好理論から40近くの主要なLLMにツールを適用し、それぞれに倫理的推論の5つの基本的な側面にまたがる多くの構造化された道徳的ジレンマを提示しました。
確率的合理性テストを使用して、各主要なプロバイダーの少なくとも1つのモデルが、ほぼ安定した道徳的好みと一致する行動を示すことを発見し、基礎となるユーティリティ機能に導かれたように機能します。
次に、これらのユーティリティ関数を推定し、ほとんどのモデルが中立の道徳的スタンスを把握することを発見しました。
不均一性をさらに特徴付けるために、ノンパラメトリック順列アプローチを採用し、明らかにされた優先パターンに基づいて確率的類似性ネットワークを構築しました。
結果は、LLMSの道徳的推論に共有されたコアを明らかにしていますが、意味のあるバリエーションもあります。一部のモデルは、視点を越えて柔軟な推論を示していますが、他のモデルはより厳格な倫理的プロファイルを順守しています。
これらの発見は、LLMSの道徳的一貫性を評価するための新しい経験的レンズを提供し、AIシステム全体で倫理的アライメントをベンチマークするためのフレームワークを提供します。

要約(オリジナル)

As large language models (LLMs) increasingly participate in tasks with ethical and societal stakes, a critical question arises: do they exhibit an emergent ‘moral mind’ – a consistent structure of moral preferences guiding their decisions – and to what extent is this structure shared across models? To investigate this, we applied tools from revealed preference theory to nearly 40 leading LLMs, presenting each with many structured moral dilemmas spanning five foundational dimensions of ethical reasoning. Using a probabilistic rationality test, we found that at least one model from each major provider exhibited behavior consistent with approximately stable moral preferences, acting as if guided by an underlying utility function. We then estimated these utility functions and found that most models cluster around neutral moral stances. To further characterize heterogeneity, we employed a non-parametric permutation approach, constructing a probabilistic similarity network based on revealed preference patterns. The results reveal a shared core in LLMs’ moral reasoning, but also meaningful variation: some models show flexible reasoning across perspectives, while others adhere to more rigid ethical profiles. These findings provide a new empirical lens for evaluating moral consistency in LLMs and offer a framework for benchmarking ethical alignment across AI systems.

arxiv情報

著者 Avner Seror
発行日 2025-04-25 15:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | The Moral Mind(s) of Large Language Models はコメントを受け付けていません

Enhancing Pre-Trained Model-Based Class-Incremental Learning through Neural Collapse

要約

クラスインクリメンタル学習(CIL)は、実際のアプリケーションにとって重要な機能であり、学習システムが以前のタスクから知識を保持しながら新しいタスクに適応できるようにします。
事前に訓練されたモデル(PTMS)の最近の進歩は、CILの分野を大幅に進めており、従来の方法よりも優れた性能を示しています。
ただし、機能がどのように進化し、インクリメンタルタスクに分配されるかを理解することは、依然としてオープンな課題です。
この論文では、トレーニングの最終段階で観察される印象的な現象である神経崩壊(NC)のレンズを介したPTMベースのCILの特徴の進化をモデル化するための新しいアプローチを提案します。
NCとCILの効果の間の接続を調査し、NCジオメトリとの機能分布を調整することで、継続的な学習の動的な動作をキャプチャする能力が向上することを示します。
この洞察に基づいて、神経崩壊にインスパイアされた事前に訓練されたモデルベースのCIL(NCPTM-CIL)を紹介します。これは、特徴空間を動的に調整してエレガントなNC構造に準拠し、それによって継続的な学習プロセスを強化する方法です。
広範な実験は、NCPTM-CILが4つのベンチマークデータセットで最先端の方法よりも優れていることを示しています。
特に、VIT-B/16-IN1Kで初期化すると、NCPTM-CILは、VTABで6.73%、CIFAR-100で1.25%、オムニバンチマークで2.5%を上回ります。

要約(オリジナル)

Class-Incremental Learning (CIL) is a critical capability for real-world applications, enabling learning systems to adapt to new tasks while retaining knowledge from previous ones. Recent advancements in pre-trained models (PTMs) have significantly advanced the field of CIL, demonstrating superior performance over traditional methods. However, understanding how features evolve and are distributed across incremental tasks remains an open challenge. In this paper, we propose a novel approach to modeling feature evolution in PTM-based CIL through the lens of neural collapse (NC), a striking phenomenon observed in the final phase of training, which leads to a well-separated, equiangular feature space. We explore the connection between NC and CIL effectiveness, showing that aligning feature distributions with the NC geometry enhances the ability to capture the dynamic behavior of continual learning. Based on this insight, we introduce Neural Collapse-inspired Pre-Trained Model-based CIL (NCPTM-CIL), a method that dynamically adjusts the feature space to conform to the elegant NC structure, thereby enhancing the continual learning process. Extensive experiments demonstrate that NCPTM-CIL outperforms state-of-the-art methods across four benchmark datasets. Notably, when initialized with ViT-B/16-IN1K, NCPTM-CIL surpasses the runner-up method by 6.73% on VTAB, 1.25% on CIFAR-100, and 2.5% on OmniBenchmark.

arxiv情報

著者 Kun He,Zijian Song,Shuoxi Zhang,John E. Hopcroft
発行日 2025-04-25 15:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Enhancing Pre-Trained Model-Based Class-Incremental Learning through Neural Collapse はコメントを受け付けていません

Pseudo-Boolean Proof Logging for Optimal Classical Planning

要約

古典的な計画タスクの下限証明書を導入します。これは、独立した第三者が検証できる方法で、タスクの解決能力または計画の最適性を証明するために使用できます。
使用される計画アルゴリズムに不可知論される擬似ブールの制約に基づいて、下限証明書を生成するための一般的なフレームワークについて説明します。
ケーススタディとして、パターンデータベースヒューリスティックと$ h^\ textit {max} $を具体的な例として使用して、$ a^{*} $ algorithmを変更する方法を示します。
同じ証明ロギングアプローチは、推論が擬似ブールの制約に対する推論として効率的に表現できるヒューリスティックに対して機能します。

要約(オリジナル)

We introduce lower-bound certificates for classical planning tasks, which can be used to prove the unsolvability of a task or the optimality of a plan in a way that can be verified by an independent third party. We describe a general framework for generating lower-bound certificates based on pseudo-Boolean constraints, which is agnostic to the planning algorithm used. As a case study, we show how to modify the $A^{*}$ algorithm to produce proofs of optimality with modest overhead, using pattern database heuristics and $h^\textit{max}$ as concrete examples. The same proof logging approach works for any heuristic whose inferences can be efficiently expressed as reasoning over pseudo-Boolean constraints.

arxiv情報

著者 Simon Dold,Malte Helmert,Jakob Nordström,Gabriele Röger,Tanja Schindler
発行日 2025-04-25 15:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Pseudo-Boolean Proof Logging for Optimal Classical Planning はコメントを受け付けていません

MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning

要約

大規模な言語モデルは、人間の表現を合理的に理解し、生成することができますが、徹底的な思考と推論メカニズムが欠けている可能性があります。
最近、言語モデルの思考能力を高めるいくつかの研究がありますが、それらのほとんどはデータ駆動型またはトレーニングベースではありません。
この論文では、自然界の認知メカニズムに動機付けられており、TASと呼ばれる新しいモデルアーキテクチャを設計し、最初に思考を検討し、次にクエリに基づいて応答を表現できます。
いくつかのパイプラインを設計して、プロンプト応答サンプルから思考コンテンツを注釈または生成し、思考層として動作する中間層に言語ヘッドを追加します。
思考能力のあるデータによって言語モデルをトレーニングし、思考レイヤーが合理的な思考を自動的に生成し、最終的により合理的な応答を出力できるようにします。
定性的な例と定量的結果の両方が、TASの有効性とパフォーマンスを検証します。
私たちのコードは、https://anonymous.4open.science/r/tadeで入手できます。

要約(オリジナル)

Large Language Model can reasonably understand and generate human expressions but may lack of thorough thinking and reasoning mechanisms. Recently there have been several studies which enhance the thinking ability of language models but most of them are not data-driven or training-based. In this paper, we are motivated by the cognitive mechanism in the natural world, and design a novel model architecture called TaS which allows it to first consider the thoughts and then express the response based upon the query. We design several pipelines to annotate or generate the thought contents from prompt-response samples, then add language heads in a middle layer which behaves as the thinking layer. We train the language model by the thoughts-augmented data and successfully let the thinking layer automatically generate reasonable thoughts and finally output more reasonable responses. Both qualitative examples and quantitative results validate the effectiveness and performance of TaS. Our code is available at https://anonymous.4open.science/r/TadE.

arxiv情報

著者 Ningyuan Xi,Xiaoyu Wang,Yetao Wu,Teng Chen,Qingqing Gu,Yue Zhao,Jinxian Qu,Zhonglin Jiang,Yong Chen,Luo Ji
発行日 2025-04-25 16:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning はコメントを受け付けていません

Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation

要約

放射線科レポートの生成は効率に重要ですが、現在のモデルには専門家の構造化された推論が欠けており、視覚的発見を正確な解剖学的位置にリンクできないことにより、臨床的信頼と説明性を妨げます。
このペーパーでは、空間的に検証可能で説明可能な放射線学レポートを生成するための画期的な統一トレーニングフレームワークであるBoxMed-RLを紹介します。
大規模なビジョン言語モデルに基づいて構築されたBoxMed-RLは、2つの統合されたフェーズを通じてレポート生成に革命をもたらします。(1)前提条件でモデルを洗練し、チェーンオブサブの監督を使用して放射線科医のようなワークフローを内面化し、その後に空間的に検証可能な補強材を内部化します。
(2)下流のアダプターフェーズでは、前提条件の重みを凍結し、下流のアダプターを訓練して、流fluentで臨床的に信頼できるレポートを確保します。
このフレームワークは、放射線科医のワークフローを正確に模倣しており、モデルに高レベルの医療概念を決定的な解剖学的証拠と結びつけることを強要しています。
パブリックデータセットでの広範な実験では、BoxMed-RLが最新の方法と比較して流星とRouge-Lの両方のメトリックの平均7%の改善を達成することを示しています。
大規模な言語モデルベースのメトリックの平均5%の改善は、高品質の放射線レポートを生成する際にBoxmed-RLの堅牢性をさらに強調しています。

要約(オリジナル)

Radiology report generation is critical for efficiency but current models lack the structured reasoning of experts, hindering clinical trust and explainability by failing to link visual findings to precise anatomical locations. This paper introduces BoxMed-RL, a groundbreaking unified training framework for generating spatially verifiable and explainable radiology reports. Built on a large vision-language model, BoxMed-RL revolutionizes report generation through two integrated phases: (1) In the Pretraining Phase, we refine the model via medical concept learning, using Chain-of-Thought supervision to internalize the radiologist-like workflow, followed by spatially verifiable reinforcement, which applies reinforcement learning to align medical findings with bounding boxes. (2) In the Downstream Adapter Phase, we freeze the pretrained weights and train a downstream adapter to ensure fluent and clinically credible reports. This framework precisely mimics radiologists’ workflow, compelling the model to connect high-level medical concepts with definitive anatomical evidence. Extensive experiments on public datasets demonstrate that BoxMed-RL achieves an average 7% improvement in both METEOR and ROUGE-L metrics compared to state-of-the-art methods. An average 5% improvement in large language model-based metrics further underscores BoxMed-RL’s robustness in generating high-quality radiology reports.

arxiv情報

著者 Peiyuan Jing,Kinhei Lee,Zhenxuan Zhang,Huichi Zhou,Zhengqing Yuan,Zhifan Gao,Lei Zhu,Giorgos Papanastasiou,Yingying Fang,Guang Yang
発行日 2025-04-25 16:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation はコメントを受け付けていません

ElChat: Adapting Chat Language Models Using Only Target Unlabeled Language Data

要約

語彙拡張(VE)は、新しいトークンを追加し、ターゲットデータの事前トレーニングを継続することにより、大規模な言語モデル(LLM)の言語適応に対する事実上のアプローチです。
これは、ラベル付けされていないデータでトレーニングされたベースモデルに効果的ですが、ラベル付きの会話データを介して命令に従うように訓練されたチャットモデルに課題をもたらします。
後者をターゲットの非標識データに直接VEで適応させると、チャット能力が忘れられる場合があります。
理想的ですが、ターゲットチャットデータは、リソースの低い言語で作成するのに利用できないか、費用がかかることが多く、機械翻訳された代替品は常に効果的ではありません。
この問題に対処するために、同じ家族のベースとチャットモデルを使用して提案された以前の作業。
このメソッドは、最初にターゲットの非標識データにVEを使用してベースLLMを適応させ、次にソースベースモデルとチャットモデルの重量差から派生したチャットベクトル(CV)を追加することにより、チャットモデルに変換します。
ベースモデルなしで、ターゲットの非標識データにチャットモデルを直接適応させるチャットLLMSの新しい言語適応方法であるElchatを提案します。
ソースチャットモデルから情報を注入することにより、チャット能力を引き出します。
Elchatは、CVと比較して優れた英語、チャット、および指導に従う能力を達成しながら、より堅牢で競争力のあるターゲット言語と安全性のパフォーマンスを提供します。

要約(オリジナル)

Vocabulary expansion (VE) is the de-facto approach to language adaptation of large language models (LLMs) by adding new tokens and continuing pre-training on target data. While this is effective for base models trained on unlabeled data, it poses challenges for chat models trained to follow instructions through labeled conversation data. Directly adapting the latter with VE on target unlabeled data may result in forgetting chat abilities. While ideal, target chat data is often unavailable or costly to create for low-resource languages, and machine-translated alternatives are not always effective. To address this issue, previous work proposed using a base and chat model from the same family. This method first adapts the base LLM with VE on target unlabeled data and then converts it to a chat model by adding a chat vector (CV) derived from the weight difference between the source base and chat models. We propose ElChat, a new language adaptation method for chat LLMs that adapts a chat model directly on target unlabeled data, without a base model. It elicits chat abilities by injecting information from the source chat model. ElChat offers more robust and competitive target language and safety performance while achieving superior English, chat, and instruction-following abilities compared to CV.

arxiv情報

著者 Atsuki Yamaguchi,Terufumi Morishita,Aline Villavicencio,Nikolaos Aletras
発行日 2025-04-25 16:08:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ElChat: Adapting Chat Language Models Using Only Target Unlabeled Language Data はコメントを受け付けていません

Action Flow Matching for Continual Robot Learning

要約

ロボット工学の継続的な学習は、変化する環境やタスクに常に適応できるシステムを探し、人間の適応性を反映しています。
重要な課題は、計画と制御に不可欠なダイナミクスモデルを改良することです。一方、安全な適応、壊滅的な忘却、外れ値管理、データ効率、探索と搾取のバランスなどの問題に対処することです。
この目標に向けて、オンラインロボットダイナミクスモデルアライメントのフローマッチングをレバレッジ化する生成フレームワークを導入します。
不整合されたモデルに基づいてアクションを実行するのではなく、私たちのアプローチは、モデルが十分に調整された場合にロボットが取るものとよりよく一致するように計画されたアクションを改善します。
伝統的に行われているように、不一致モデルで探索するのではなく、アクション自体を変換することにより、ロボットは有益なデータをより効率的に収集し、それにより学習を加速することがわかります。
さらに、このメソッドは、リプレイバッファーまたはレガシーモデルのスナップショットへの依存を減らしながら、進化する可能性のあるモデルと不完全なモデルを処理できることを検証します。
無人の地上車両と四肢装置の2つのプラットフォームを使用してアプローチを検証します。
結果は、記録的な34.2 \%がタスクの成功率が高いことを示しており、継続的なロボット学習を可能にする可能性を示しています。
コード:https://github.com/alejandromllo/action_flow_matching。

要約(オリジナル)

Continual learning in robotics seeks systems that can constantly adapt to changing environments and tasks, mirroring human adaptability. A key challenge is refining dynamics models, essential for planning and control, while addressing issues such as safe adaptation, catastrophic forgetting, outlier management, data efficiency, and balancing exploration with exploitation — all within task and onboard resource constraints. Towards this goal, we introduce a generative framework leveraging flow matching for online robot dynamics model alignment. Rather than executing actions based on a misaligned model, our approach refines planned actions to better match with those the robot would take if its model was well aligned. We find that by transforming the actions themselves rather than exploring with a misaligned model — as is traditionally done — the robot collects informative data more efficiently, thereby accelerating learning. Moreover, we validate that the method can handle an evolving and possibly imperfect model while reducing, if desired, the dependency on replay buffers or legacy model snapshots. We validate our approach using two platforms: an unmanned ground vehicle and a quadrotor. The results highlight the method’s adaptability and efficiency, with a record 34.2\% higher task success rate, demonstrating its potential towards enabling continual robot learning. Code: https://github.com/AlejandroMllo/action_flow_matching.

arxiv情報

著者 Alejandro Murillo-Gonzalez,Lantao Liu
発行日 2025-04-25 16:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Action Flow Matching for Continual Robot Learning はコメントを受け付けていません

A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization

要約

複数のドメインにわたって実証された推論能力を備えた大規模な言語モデル(LLM)は、現実世界で遍在する時系列推論(TSR)にはほとんど不足していません。
この作業では、LLMSのTSRパフォーマンスを評価するための最初の包括的なテストベッドであるTimerBedを提案します。
具体的には、タイマーベッドには、実際のタスク、LLMSの包括的な組み合わせと推論戦略、および比較アンカーとしてのさまざまな監視モデルを備えた層別推論パターンが含まれます。
タイマー付きの広範な実験を実行し、複数の電流信念をテストし、TSRのLLMの初期障害を検証します。これは、ゼロショット(ZST)の非効率性と、少数のショット内学習(ICL)のパフォーマンス低下によって証明されます。
さらに、1つの考えられる根本原因を特定します:データの数値モデリング。
これに対処するために、視覚化モデルのデータと言語誘導推論を使用して、プロンプトベースのソリューションVL-Timeを提案します。
実験結果は、VL-Timeにより、マルチモーダルLLMが時系列の非自明のZSTおよび強力なICL推論を可能にし、約140%の平均パフォーマンス改善と99%の平均トークンコスト削減を達成することを示しています。

要約(オリジナル)

Large language models (LLMs), with demonstrated reasoning abilities across multiple domains, are largely underexplored for time-series reasoning (TsR), which is ubiquitous in the real world. In this work, we propose TimerBed, the first comprehensive testbed for evaluating LLMs’ TsR performance. Specifically, TimerBed includes stratified reasoning patterns with real-world tasks, comprehensive combinations of LLMs and reasoning strategies, and various supervised models as comparison anchors. We perform extensive experiments with TimerBed, test multiple current beliefs, and verify the initial failures of LLMs in TsR, evidenced by the ineffectiveness of zero shot (ZST) and performance degradation of few shot in-context learning (ICL). Further, we identify one possible root cause: the numerical modeling of data. To address this, we propose a prompt-based solution VL-Time, using visualization-modeled data and language-guided reasoning. Experimental results demonstrate that Vl-Time enables multimodal LLMs to be non-trivial ZST and powerful ICL reasoners for time series, achieving about 140% average performance improvement and 99% average token costs reduction.

arxiv情報

著者 Haoxin Liu,Chenghao Liu,B. Aditya Prakash
発行日 2025-04-25 16:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization はコメントを受け付けていません

Reinforcement Learning-based Threat Assessment

要約

一部のゲームシナリオでは、敵ユニットの数の不確実性とさまざまな属性の優先順位により、敵ユニットの脅威レベルの評価とスクリーニングは挑戦的な研究トピックであり、脅威の定量的評価を達成するために異なる属性の優先順位を合理的に設定する方法には、核となる困難があります。
この論文では、脅威評価の問題を革新的な学習問題に革新的に変換し、系統的強化学習トレーニングを通じて、効率的なニューラルネットワーク評価者の構築に成功しました。
評価者は、敵の多次元属性の特徴を包括的に統合するだけでなく、州の情報を効果的に組み合わせて、より正確で科学的な脅威評価を実現することもできます。

要約(オリジナル)

In some game scenarios, due to the uncertainty of the number of enemy units and the priority of various attributes, the evaluation of the threat level of enemy units as well as the screening has been a challenging research topic, and the core difficulty lies in how to reasonably set the priority of different attributes in order to achieve quantitative evaluation of the threat. In this paper, we innovatively transform the problem of threat assessment into a reinforcement learning problem, and through systematic reinforcement learning training, we successfully construct an efficient neural network evaluator. The evaluator can not only comprehensively integrate the multidimensional attribute features of the enemy, but also effectively combine our state information, thus realizing a more accurate and scientific threat assessment.

arxiv情報

著者 Wuzhou Sun,Siyi Li,Qingxiang Zou,Zixing Liao
発行日 2025-04-25 16:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Reinforcement Learning-based Threat Assessment はコメントを受け付けていません