Cognitive Insights and Stable Coalition Matching for Fostering Multi-Agent Cooperation

要約

心の理論(TOM)などの認知能力は、人間の社会的相互作用における協力を促進する上で重要な役割を果たします。
しかし、私たちの研究では、TOM能力が高いエージェントは、TOMの能力が低い能力と比較して、必ずしもより良い協調行動を示すとは限らないことが明らかになりました。
この課題に対処するために、連合を形成する際に信念のアライメントと特殊な能力を明示的に考慮することにより、異なるTOMレベルのエージェントの強さを活用する新しいマッチング連合メカニズムを提案します。
提案されている一致するアルゴリズムは、協力的な行動の可能性を最大化し、長期的な実行可能性を確保する安定した連合を見つけようとしています。
マルチエージェントシステムの設計に認知的洞察を組み込むことにより、私たちの研究は、TOMを活用して、より洗練された人間のような調整戦略を作成し、協力を促進し、システム全体のパフォーマンスを改善する可能性を示しています。

要約(オリジナル)

Cognitive abilities, such as Theory of Mind (ToM), play a vital role in facilitating cooperation in human social interactions. However, our study reveals that agents with higher ToM abilities may not necessarily exhibit better cooperative behavior compared to those with lower ToM abilities. To address this challenge, we propose a novel matching coalition mechanism that leverages the strengths of agents with different ToM levels by explicitly considering belief alignment and specialized abilities when forming coalitions. Our proposed matching algorithm seeks to find stable coalitions that maximize the potential for cooperative behavior and ensure long-term viability. By incorporating cognitive insights into the design of multi-agent systems, our work demonstrates the potential of leveraging ToM to create more sophisticated and human-like coordination strategies that foster cooperation and improve overall system performance.

arxiv情報

著者 Jiaqi Shao,Tianjun Yuan,Tao Lin,Bing Luo
発行日 2025-05-14 15:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Cognitive Insights and Stable Coalition Matching for Fostering Multi-Agent Cooperation はコメントを受け付けていません

Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities

要約

基礎モデル(FM)をロボット工学に統合することで、ロボットは環境のセマンティクスに関する自然言語と理性を理解することができました。
ただし、既存のFM対応ロボットプライマリは、閉じた世界の設定で動作します。ここでは、ロボットに完全な前のマップが与えられるか、ワークスペースが完全に表示されます。
このペーパーでは、フィールドでのFM対応ロボットの展開に対処します。ミッションでは、多くの場合、ロボットが大規模で構造化されていない環境で動作する必要があります。
これらのミッションを効果的に達成するには、ロボットは環境を積極的に探索し、障害物散乱した地形をナビゲートし、予期しないセンサー入力を処理し、計算制約で動作する必要があります。
フィールドロボット設定でのLLM対応自治フレームワークである脊椎の最近の展開について説明します。
私たちの知る限り、数キロのミッションを備えた構造化されていない環境での大規模なLLM対応ロボット計画の最初のデモを紹介します。
脊椎は特定のLLMに不可知論されているため、オンボードサイズ、重量、電源(SWAP)限定プラットフォームを実行できる小さな言語モデルを蒸留できます。
予備モデルの蒸留作業を介して、デバイス上の言語モデルを使用して、第一言語主導のUAVプランナーを提示します。
将来の研究のためのいくつかの有望な方向を提案することにより、私たちの論文を締めくくります。

要約(オリジナル)

The integration of foundation models (FMs) into robotics has enabled robots to understand natural language and reason about the semantics in their environments. However, existing FM-enabled robots primary operate in closed-world settings, where the robot is given a full prior map or has a full view of its workspace. This paper addresses the deployment of FM-enabled robots in the field, where missions often require a robot to operate in large-scale and unstructured environments. To effectively accomplish these missions, robots must actively explore their environments, navigate obstacle-cluttered terrain, handle unexpected sensor inputs, and operate with compute constraints. We discuss recent deployments of SPINE, our LLM-enabled autonomy framework, in field robotic settings. To the best of our knowledge, we present the first demonstration of large-scale LLM-enabled robot planning in unstructured environments with several kilometers of missions. SPINE is agnostic to a particular LLM, which allows us to distill small language models capable of running onboard size, weight and power (SWaP) limited platforms. Via preliminary model distillation work, we then present the first language-driven UAV planner using on-device language models. We conclude our paper by proposing several promising directions for future research.

arxiv情報

著者 Zachary Ravichandran,Fernando Cladera,Jason Hughes,Varun Murali,M. Ani Hsieh,George J. Pappas,Camillo J. Taylor,Vijay Kumar
発行日 2025-05-14 15:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities はコメントを受け付けていません

Construction and Application of Materials Knowledge Graph in Multidisciplinary Materials Science via Large Language Model

要約

材料科学の知識は、広範な科学文献全体に広く分散されており、新しい材料の効率的な発見と統合に大きな課題をもたらしています。
多くの場合、費用と時間のかかる実験的アプローチに依存している従来の方法は、急速な革新をさらに複雑にします。
これらの課題に対処するために、人工知能と材料科学の統合は、発見プロセスを加速するための道を開きましたが、情報の正確な注釈、データ抽出、およびトレーサビリティも必要です。
これらの問題に取り組むために、この記事では、材料知識グラフ(MKG)を紹介します。これは、大規模な言語モデルと統合された高度な自然言語処理技術を利用して、162,605ノードと731,772のエッジを含む10年分の高品質の研究を抽出し、体系的に編成します。
MKGは、細心の注意を払って設計されたオントロジーを中心に構成された名前、式、アプリケーションなどの包括的なラベルに情報を分類し、データの使いやすさと統合を強化します。
ネットワークベースのアルゴリズムを実装することにより、MKGは効率的なリンク予測を促進するだけでなく、従来の実験方法への依存を大幅に削減します。
この構造化されたアプローチは、材料の研究を合理化するだけでなく、より洗練された科学知識グラフの基礎を築きます。

要約(オリジナル)

Knowledge in materials science is widely dispersed across extensive scientific literature, posing significant challenges to the efficient discovery and integration of new materials. Traditional methods, often reliant on costly and time-consuming experimental approaches, further complicate rapid innovation. Addressing these challenges, the integration of artificial intelligence with materials science has opened avenues for accelerating the discovery process, though it also demands precise annotation, data extraction, and traceability of information. To tackle these issues, this article introduces the Materials Knowledge Graph (MKG), which utilizes advanced natural language processing techniques integrated with large language models to extract and systematically organize a decade’s worth of high-quality research into structured triples, contains 162,605 nodes and 731,772 edges. MKG categorizes information into comprehensive labels such as Name, Formula, and Application, structured around a meticulously designed ontology, thus enhancing data usability and integration. By implementing network-based algorithms, MKG not only facilitates efficient link prediction but also significantly reduces reliance on traditional experimental methods. This structured approach not only streamlines materials research but also lays the groundwork for more sophisticated science knowledge graphs.

arxiv情報

著者 Yanpeng Ye,Jie Ren,Shaozhou Wang,Yuwei Wan,Imran Razzak,Bram Hoex,Haofen Wang,Tong Xie,Wenjie Zhang
発行日 2025-05-14 15:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Construction and Application of Materials Knowledge Graph in Multidisciplinary Materials Science via Large Language Model はコメントを受け付けていません

Preserving Plasticity in Continual Learning with Adaptive Linearity Injection

要約

深いニューラルネットワークの可塑性の喪失は、モデルの段階的に学習する能力の徐々に減少し、非定常問題設定での学習の重要な障害として特定されています。
最近の研究は、深い線形ネットワークが可塑性の喪失に対して回復力がある傾向があることを示しています。
この観察に動機付けられて、各ニューロンの活性化関数を動的に適応させて可塑性喪失を軽減する一般的なアプローチである適応線形化(Adalin)を提案します。
正規化や定期的なリセットに依存する以前の方法とは異なり、アダリンはすべてのニューロンに学習可能なパラメーターと、その勾配の流れに基づいて線形性を活性化関数に注入するゲーティングメカニズムを装備します。
この適応変調により、追加のハイパーパラメーターを導入したり、明示的なタスク境界を必要とせずに、十分な勾配信号を保証し、継続的な学習を維持します。
Relu、Tanh、Geluなどの従来のアクティベーション関数で使用すると、アダリンがランダムラベルと順応のMNIST、ランダムラベルとシャッフルCIFAR-10、クラススプリットCIFAR-100を含む標準ベンチマークのパフォーマンスを大幅に改善できることを実証します。
さらに、その有効性は、ResNet-18バックボーンを備えたCIFAR-100のクラスインクリメント学習や、ポリシーオフフィーリー強化学習エージェントの可塑性損失の緩和など、より複雑なシナリオで示されています。
ニューロンレベルの適応が優れたパフォーマンスに不可欠であることを示すアブレーションの体系的なセットを実行し、可塑性の喪失と相関する可能性のあるネットワーク内の多くのメトリックを分析します。

要約(オリジナル)

Loss of plasticity in deep neural networks is the gradual reduction in a model’s capacity to incrementally learn and has been identified as a key obstacle to learning in non-stationary problem settings. Recent work has shown that deep linear networks tend to be resilient towards loss of plasticity. Motivated by this observation, we propose Adaptive Linearization (AdaLin), a general approach that dynamically adapts each neuron’s activation function to mitigate plasticity loss. Unlike prior methods that rely on regularization or periodic resets, AdaLin equips every neuron with a learnable parameter and a gating mechanism that injects linearity into the activation function based on its gradient flow. This adaptive modulation ensures sufficient gradient signal and sustains continual learning without introducing additional hyperparameters or requiring explicit task boundaries. When used with conventional activation functions like ReLU, Tanh, and GeLU, we demonstrate that AdaLin can significantly improve performance on standard benchmarks, including Random Label and Permuted MNIST, Random Label and Shuffled CIFAR-10, and Class-Split CIFAR-100. Furthermore, its efficacy is shown in more complex scenarios, such as class-incremental learning on CIFAR-100 with a ResNet-18 backbone, and in mitigating plasticity loss in off-policy reinforcement learning agents. We perform a systematic set of ablations that show that neuron-level adaptation is crucial for good performance and analyze a number of metrics in the network that might be correlated to loss of plasticity.

arxiv情報

著者 Seyed Roozbeh Razavi Rohani,Khashayar Khajavi,Wesley Chung,Mo Chen,Sharan Vaswani
発行日 2025-05-14 15:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Preserving Plasticity in Continual Learning with Adaptive Linearity Injection はコメントを受け付けていません

\textsc{rfPG}: Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs

要約

不確実性の下での順次意思決定における部分的に観察可能なマルコフ決定プロセス(POMDP)モデル固有の環境。
重大なことに、POMDPの最適なポリシーは、環境の摂動に対して堅牢ではない場合があります。
Hidden-Model POMDP(HM-POMDP)は、さまざまな環境モデル、つまり共有アクションと観測スペースを持つPOMDPのセットをキャプチャします。
直感は、真のモデルが潜在的なモデルのセットに隠されていることであり、実行時にどのモデルが環境になるかは不明です。
POMDPごとに十分なパフォーマンスを達成する場合、特定のHM-POMDPに対してポリシーは堅牢です。
2つの直交技術を組み合わせることにより、このような堅牢なポリシーを計算します。(1)HM-POMDP内の最悪のケースPOMDPを計算することにより、扱いやすい堅牢なポリシー評価をサポートする演ductive的な正式な検証手法と、(2)最悪のケースPOMDPの候補ポリシーを最適化するための細分昇格。
経験的評価は、さまざまなベースラインと比較して、私たちのアプローチ(1)がより堅牢で、目に見えないPOMDPに対してより良く一般化するポリシーを生成し、(2)10万を超える環境で構成されるHM-POMDPに対してスケールを生成することを示しています。

要約(オリジナル)

Partially observable Markov decision processes (POMDPs) model specific environments in sequential decision-making under uncertainty. Critically, optimal policies for POMDPs may not be robust against perturbations in the environment. Hidden-model POMDPs (HM-POMDPs) capture sets of different environment models, that is, POMDPs with a shared action and observation space. The intuition is that the true model is hidden among a set of potential models, and it is unknown which model will be the environment at execution time. A policy is robust for a given HM-POMDP if it achieves sufficient performance for each of its POMDPs. We compute such robust policies by combining two orthogonal techniques: (1) a deductive formal verification technique that supports tractable robust policy evaluation by computing a worst-case POMDP within the HM-POMDP and (2) subgradient ascent to optimize the candidate policy for a worst-case POMDP. The empirical evaluation shows that, compared to various baselines, our approach (1) produces policies that are more robust and generalize better to unseen POMDPs and (2) scales to HM-POMDPs that consist of over a hundred thousand environments.

arxiv情報

著者 Maris F. L. Galesloot,Roman Andriushchenko,Milan Češka,Sebastian Junges,Nils Jansen
発行日 2025-05-14 16:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | \textsc{rfPG}: Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs はコメントを受け付けていません

Fragment-Masked Diffusion for Molecular Optimization

要約

分子最適化は、薬物の有効性を高め、副作用を最小限に抑えるために分子構造を改良し、最終的には医薬品開発プロセスを加速することを目的とした創薬の重要な側面です。
多くの分子最適化方法が提案されており、創薬の発見を大幅に進めています。
これらの方法は、主に特定の薬物標的構造または疾患との闘いにおける仮説の役割を理解することに関する方法です。
ただし、利用可能な限られた数のターゲットや明確な構造をキャプチャする困難などの課題は、革新的な医薬品開発を妨げています。
対照的に、表現型創薬(PDD)は明確なターゲット構造に依存せず、新規および偏りのない多菌類科学の署名でヒットを特定できます。
その結果、PDDベースの分子最適化は、表現型活性を最適化しながら潜在的な安全リスクを減らし、それにより臨床的成功の可能性を高めます。
したがって、PDD(FMOP)に基づくフラグメントマスク分子最適化法を提案します。
FMOPは、回帰のない拡散モデルを採用して、分子マスク領域を条件付きで最適化し、同様の足場で新しい分子を効果的に生成します。
大規模な薬物応答データセットGDSCV2では、985細胞株すべてにわたって潜在的な分子を最適化します。
全体的な実験は、シリコ内最適化の成功率が95.4 \%に達し、平均有効性が7.5 \%に達することを示しています。
さらに、FMOPが効果的で堅牢な分子最適化方法であることを確認して、広範なアブレーションおよび視覚化実験を実施します。
このコードは、https://anonymous.4open.science/r/fmop-98c2で入手できます。

要約(オリジナル)

Molecular optimization is a crucial aspect of drug discovery, aimed at refining molecular structures to enhance drug efficacy and minimize side effects, ultimately accelerating the overall drug development process. Many molecular optimization methods have been proposed, significantly advancing drug discovery. These methods primarily on understanding the specific drug target structures or their hypothesized roles in combating diseases. However, challenges such as a limited number of available targets and a difficulty capturing clear structures hinder innovative drug development. In contrast, phenotypic drug discovery (PDD) does not depend on clear target structures and can identify hits with novel and unbiased polypharmacology signatures. As a result, PDD-based molecular optimization can reduce potential safety risks while optimizing phenotypic activity, thereby increasing the likelihood of clinical success. Therefore, we propose a fragment-masked molecular optimization method based on PDD (FMOP). FMOP employs a regression-free diffusion model to conditionally optimize the molecular masked regions, effectively generating new molecules with similar scaffolds. On the large-scale drug response dataset GDSCv2, we optimize the potential molecules across all 985 cell lines. The overall experiments demonstrate that the in-silico optimization success rate reaches 95.4\%, with an average efficacy increase of 7.5\%. Additionally, we conduct extensive ablation and visualization experiments, confirming that FMOP is an effective and robust molecular optimization method. The code is available at: https://anonymous.4open.science/r/FMOP-98C2.

arxiv情報

著者 Kun Li,Xiantao Cai,Jia Wu,Shirui Pan,Huiting Xu,Bo Du,Wenbin Hu
発行日 2025-05-14 16:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.BM | Fragment-Masked Diffusion for Molecular Optimization はコメントを受け付けていません

Detecting Multimedia Generated by Large AI Models: A Survey

要約

大規模なAIモデル(LAIMS)、特に拡散モデルと大規模な言語モデルの急速な進歩は、AIに生成されたマルチメディアが日常生活のさまざまな側面にますます統合されている新しい時代をマークしました。
多くの分野では有益ですが、このコンテンツは、潜在的な誤用、社会的混乱、倫理的懸念など、重大なリスクを示しています。
その結果、LAIMSによって生成されたマルチメディアの検出が重要になり、関連する研究が著しく増加しました。
それにもかかわらず、LAIM生成マルチメディアの検出に特に焦点を当てた体系的な調査には顕著なギャップが残っています。
これに対処するために、LAIMSが作成したマルチメディア(テキスト、画像、ビデオ、オーディオ、マルチモーダルコンテンツなど)の検出に関する既存の研究を包括的にカバーするための最初の調査を提供します。
具体的には、メディアのモダリティに分類され、2つの視点に沿った検出方法の新しい分類法を導入し、純粋な検出(検出性能を強化することを目的としています)と検出を超えて(一般化可能性、堅牢性、検出可能性の解釈可能性などの属性を追加)。
さらに、この分野の研究者と実践者に貴重なリソースを提供するために、生成メカニズム、パブリックデータセット、オンライン検出ツール、評価メトリックの概要を説明しました。
最も重要なことは、ソーシャルメディアの観点から集中的な分析を提供して、彼らのより広い社会的影響を強調することです。
さらに、検出における現在の課題を特定し、LAIMSによって生成されたマルチメディアの検出において、未開拓、継続的、および新たな問題に対処する将来の研究の方向性を提案します。
この調査の目的は、学問のギャップを埋め、グローバルなAIセキュリティの取り組みに貢献し、デジタル領域の情報の整合性を確保することです。
プロジェクトリンクはhttps://github.com/purdue-m2/detect-laim-generated-multimedia-surveyです。

要約(オリジナル)

The rapid advancement of Large AI Models (LAIMs), particularly diffusion models and large language models, has marked a new era where AI-generated multimedia is increasingly integrated into various aspects of daily life. Although beneficial in numerous fields, this content presents significant risks, including potential misuse, societal disruptions, and ethical concerns. Consequently, detecting multimedia generated by LAIMs has become crucial, with a marked rise in related research. Despite this, there remains a notable gap in systematic surveys that focus specifically on detecting LAIM-generated multimedia. Addressing this, we provide the first survey to comprehensively cover existing research on detecting multimedia (such as text, images, videos, audio, and multimodal content) created by LAIMs. Specifically, we introduce a novel taxonomy for detection methods, categorized by media modality, and aligned with two perspectives: pure detection (aiming to enhance detection performance) and beyond detection (adding attributes like generalizability, robustness, and interpretability to detectors). Additionally, we have presented a brief overview of generation mechanisms, public datasets, online detection tools, and evaluation metrics to provide a valuable resource for researchers and practitioners in this field. Most importantly, we offer a focused analysis from a social media perspective to highlight their broader societal impact. Furthermore, we identify current challenges in detection and propose directions for future research that address unexplored, ongoing, and emerging issues in detecting multimedia generated by LAIMs. Our aim for this survey is to fill an academic gap and contribute to global AI security efforts, helping to ensure the integrity of information in the digital realm. The project link is https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey.

arxiv情報

著者 Li Lin,Neeraj Gupta,Yue Zhang,Hainan Ren,Chun-Hao Liu,Feng Ding,Xin Wang,Xin Li,Luisa Verdoliva,Shu Hu
発行日 2025-05-14 16:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM | Detecting Multimedia Generated by Large AI Models: A Survey はコメントを受け付けていません

Multi-Agent Reinforcement Learning Simulation for Environmental Policy Synthesis

要約

気候政策開発は、深い不確実性、複雑なシステムのダイナミクス、および競合する利害関係者の利益のために大きな課題に直面しています。
地球システムモデルなどの気候シミュレーション方法は、政策探査のための貴重なツールになっています。
ただし、それらの典型的な使用は、潜在的なポリスを直接合成するのではなく、潜在的なポリスを評価するためのものです。
問題は政策経路を最適化するために反転することができますが、従来の最適化アプローチは、しばしば非線形ダイナミクス、不均一なエージェント、および包括的な不確実性の定量化と闘っています。
これらの制限に対処するために、マルチエージェント強化学習(MARL)を使用して気候シミュレーションを増強するためのフレームワークを提案します。
報酬の定義、増加するエージェントと状態空間によるスケーラビリティ、リンクされたシステム全体の不確実性の伝播、ソリューションの検証など、気候シミュレーションとMARLの適用との間のインターフェースで重要な課題を特定します。
さらに、MARL由来のソリューションを政策立案者にとって解釈可能かつ有用にする際の課題について説明します。
私たちのフレームワークは、将来の研究のための重要な制限と分野を認めながら、より洗練された気候政策探査の基盤を提供します。

要約(オリジナル)

Climate policy development faces significant challenges due to deep uncertainty, complex system dynamics, and competing stakeholder interests. Climate simulation methods, such as Earth System Models, have become valuable tools for policy exploration. However, their typical use is for evaluating potential polices, rather than directly synthesizing them. The problem can be inverted to optimize for policy pathways, but the traditional optimization approaches often struggle with non-linear dynamics, heterogeneous agents, and comprehensive uncertainty quantification. We propose a framework for augmenting climate simulations with Multi-Agent Reinforcement Learning (MARL) to address these limitations. We identify key challenges at the interface between climate simulations and the application of MARL in the context of policy synthesis, including reward definition, scalability with increasing agents and state spaces, uncertainty propagation across linked systems, and solution validation. Additionally, we discuss challenges in making MARL-derived solutions interpretable and useful for policy-makers. Our framework provides a foundation for more sophisticated climate policy exploration while acknowledging important limitations and areas for future research.

arxiv情報

著者 James Rudd-Jones,Mirco Musolesi,María Pérez-Ortiz
発行日 2025-05-14 16:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Multi-Agent Reinforcement Learning Simulation for Environmental Policy Synthesis はコメントを受け付けていません

Llama-Nemotron: Efficient Reasoning Models

要約

Llama-Nemotronシリーズのモデルを紹介します。これは、例外的な推論能力、推論効率、およびエンタープライズ使用のためのオープンライセンスを提供する不均一な推論モデルのオープンファミリーです。
ファミリには、ナノ(8b)、スーパー(49b)、ウルトラ(253b)の3つのサイズがあり、Deepseek-R1などの最先端の推論モデルと競合しながら、優れた推論のスループットとメモリ効率を提供します。
このレポートでは、これらのモデルのトレーニング手順について説明します。これには、加速された推論、知識の蒸留、および継続的な前提のためにLlama 3モデルからのニューラルアーキテクチャ検索を使用することが含まれます。
Llama-Nemotronモデルは、動的な推論の切り替えをサポートする最初のオープンソースモデルであり、ユーザーが推論中に標準チャットモードと推論モードを切り替えることができます。
オープンな研究をさらにサポートし、モデル開発を促進するために、次のリソースを提供します。1。商業的に寛容なNVIDIAオープンモデルライセンス契約の下で、Ln-Nano、Ln-Super、およびLn-UltraのLlama-Nemotron Reasoningモデルをリリースします。
2。トレーニング後の完全なデータセット:Llama-Nemotron-Post-Training-Datasetをリリースします。
3.トレーニングコードベース(Nemo、Nemo-Aligner、Megatron-LMもリリースします。

要約(オリジナル)

We introduce the Llama-Nemotron series of models, an open family of heterogeneous reasoning models that deliver exceptional reasoning capabilities, inference efficiency, and an open license for enterprise use. The family comes in three sizes — Nano (8B), Super (49B), and Ultra (253B) — and performs competitively with state-of-the-art reasoning models such as DeepSeek-R1 while offering superior inference throughput and memory efficiency. In this report, we discuss the training procedure for these models, which entails using neural architecture search from Llama 3 models for accelerated inference, knowledge distillation, and continued pretraining, followed by a reasoning-focused post-training stage consisting of two main parts: supervised fine-tuning and large scale reinforcement learning. Llama-Nemotron models are the first open-source models to support a dynamic reasoning toggle, allowing users to switch between standard chat and reasoning modes during inference. To further support open research and facilitate model development, we provide the following resources: 1. We release the Llama-Nemotron reasoning models — LN-Nano, LN-Super, and LN-Ultra — under the commercially permissive NVIDIA Open Model License Agreement. 2. We release the complete post-training dataset: Llama-Nemotron-Post-Training-Dataset. 3. We also release our training codebases: NeMo, NeMo-Aligner, and Megatron-LM.

arxiv情報

著者 Akhiad Bercovich,Itay Levy,Izik Golan,Mohammad Dabbah,Ran El-Yaniv,Omri Puny,Ido Galil,Zach Moshe,Tomer Ronen,Najeeb Nabwani,Ido Shahaf,Oren Tropp,Ehud Karpas,Ran Zilberstein,Jiaqi Zeng,Soumye Singhal,Alexander Bukharin,Yian Zhang,Tugrul Konuk,Gerald Shen,Ameya Sunil Mahabaleshwarkar,Bilal Kartal,Yoshi Suhara,Olivier Delalleau,Zijia Chen,Zhilin Wang,David Mosallanezhad,Adi Renduchintala,Haifeng Qian,Dima Rekesh,Fei Jia,Somshubra Majumdar,Vahid Noroozi,Wasi Uddin Ahmad,Sean Narenthiran,Aleksander Ficek,Mehrzad Samadi,Jocelyn Huang,Siddhartha Jain,Igor Gitman,Ivan Moshkov,Wei Du,Shubham Toshniwal,George Armstrong,Branislav Kisacanin,Matvei Novikov,Daria Gitman,Evelina Bakhturina,Jane Polak Scowcroft,John Kamalu,Dan Su,Kezhi Kong,Markus Kliegl,Rabeeh Karimi,Ying Lin,Sanjeev Satheesh,Jupinder Parmar,Pritam Gundecha,Brandon Norick,Joseph Jennings,Shrimai Prabhumoye,Syeda Nahida Akter,Mostofa Patwary,Abhinav Khattar,Deepak Narayanan,Roger Waleffe,Jimmy Zhang,Bor-Yiing Su,Guyue Huang,Terry Kong,Parth Chadha,Sahil Jain,Christine Harvey,Elad Segal,Jining Huang,Sergey Kashirsky,Robert McQueen,Izzy Putterman,George Lam,Arun Venkatesan,Sherry Wu,Vinh Nguyen,Manoj Kilaru,Andrew Wang,Anna Warno,Abhilash Somasamudramath,Sandip Bhaskar,Maka Dong,Nave Assaf,Shahar Mor,Omer Ullman Argov,Scot Junkin,Oleksandr Romanenko,Pedro Larroy,Monika Katariya,Marco Rovinelli,Viji Balas,Nicholas Edelman,Anahita Bhiwandiwalla,Muthu Subramaniam,Smita Ithape,Karthik Ramamoorthy,Yuting Wu,Suguna Varshini Velury,Omri Almog,Joyjit Daw,Denys Fridman,Erick Galinkin,Michael Evans,Shaona Ghosh,Katherine Luna,Leon Derczynski,Nikki Pope,Eileen Long,Seth Schneider,Guillermo Siman,Tomasz Grzegorzek,Pablo Ribalta,Monika Katariya,Chris Alexiuk,Joey Conway,Trisha Saar,Ann Guan,Krzysztof Pawelec,Shyamala Prayaga,Oleksii Kuchaiev,Boris Ginsburg,Oluwatobi Olabiyi,Kari Briski,Jonathan Cohen,Bryan Catanzaro,Jonah Alben,Yonatan Geifman,Eric Chung
発行日 2025-05-14 16:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Llama-Nemotron: Efficient Reasoning Models はコメントを受け付けていません

Deontic Temporal Logic for Formal Verification of AI Ethics

要約

人工知能(AI)システムの倫理的行動を確保することは、遍在性と影響力の増加の中で、世界中の大きな関心事です。
AI倫理における正式な方法の使用は、AIシステムの倫理的行動を指定および検証するための重要なアプローチです。
このペーパーでは、システムレベルの仕様に焦点を当て、この重要な目標に貢献し、AIシステムの倫理的行動を定義および評価するために、デオンティックロジックに基づく形式化を提案します。
公平性と説明可能性に関連する倫理的要件を把握するために、公理と定理を導入します。
この形式化には、時間の経過とともにAIシステムの倫理的行動について推論するために、一時的な演算子が組み込まれています。
著者は、現実世界のコンパとローン予測AIシステムの倫理を評価することにより、この形式化の有効性を評価します。
コンパスおよびローン予測システムのさまざまな倫理的特性は、デオンティック論理式を使用してエンコードされているため、自動定理用プーバーを使用して、これらのシステムが定義されたプロパティを満たすかどうかを確認できます。
正式な検証は、両方のシステムが公平性と非差別に関連する特定の重要な倫理的特性を満たしていないことを明らかにしており、実際のAIアプリケーションにおける潜在的な倫理的問題を特定する際の提案された形式化の有効性を実証しています。

要約(オリジナル)

Ensuring ethical behavior in Artificial Intelligence (AI) systems amidst their increasing ubiquity and influence is a major concern the world over. The use of formal methods in AI ethics is a possible crucial approach for specifying and verifying the ethical behavior of AI systems. This paper proposes a formalization based on deontic logic to define and evaluate the ethical behavior of AI systems, focusing on system-level specifications, contributing to this important goal. It introduces axioms and theorems to capture ethical requirements related to fairness and explainability. The formalization incorporates temporal operators to reason about the ethical behavior of AI systems over time. The authors evaluate the effectiveness of this formalization by assessing the ethics of the real-world COMPAS and loan prediction AI systems. Various ethical properties of the COMPAS and loan prediction systems are encoded using deontic logical formulas, allowing the use of an automated theorem prover to verify whether these systems satisfy the defined properties. The formal verification reveals that both systems fail to fulfill certain key ethical properties related to fairness and non-discrimination, demonstrating the effectiveness of the proposed formalization in identifying potential ethical issues in real-world AI applications.

arxiv情報

著者 Priya T. V.,Shrisha Rao
発行日 2025-05-14 16:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO, F.4.1 | Deontic Temporal Logic for Formal Verification of AI Ethics はコメントを受け付けていません