要約
物理的なAIシステムは、物理的な世界で複雑な行動を認識し、理解し、実行する必要があります。
この論文では、物理的な世界を理解し、長い考え方の推論プロセスを通じて自然言語で適切な具体化された決定(次のステップアクション)を生成できるCosmos-Reason1モデルを提示します。
まず、物理的常識と具体化された推論に焦点を当てて、物理的なAI推論の重要な機能を定義することから始めます。
物理的常識を表すために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。
具体化された推論のために、私たちは異なる物理的実施形態にわたって一般化する2次元オントロジーに依存しています。
これらの機能に基づいて、2つのマルチモーダル大型言語モデル、Cosmos-Reason1-8BとCosmos-Reason1-56Bを開発しています。
データをキュレートし、モデルを4つの段階で訓練します:視力前訓練、一般的な監視施設微調整(SFT)、物理的AI SFT、および物理AI補強学習(RL)。
モデルを評価するために、物理的常識のための包括的なベンチマークを構築し、オントロジーに従って推論を具体化します。
評価の結果は、物理的なAI SFTと強化学習が大幅に改善されることを示しています。
物理AIの開発を容易にするために、https://github.com/nvidia-cosmos/cosmos-reason1のNVIDIAオープンモデルライセンスの下で、コードと事前訓練を受けたモデルを利用可能にします。
要約(オリジナル)
Physical AI systems need to perceive, understand, and perform complex actions in the physical world. In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e.g., next step action) in natural language through long chain-of-thought reasoning processes. We begin by defining key capabilities for Physical AI reasoning, with a focus on physical common sense and embodied reasoning. To represent physical common sense, we use a hierarchical ontology that captures fundamental knowledge about space, time, and physics. For embodied reasoning, we rely on a two-dimensional ontology that generalizes across different physical embodiments. Building on these capabilities, we develop two multimodal large language models, Cosmos-Reason1-8B and Cosmos-Reason1-56B. We curate data and train our models in four stages: vision pre-training, general supervised fine-tuning (SFT), Physical AI SFT, and Physical AI reinforcement learning (RL) as the post-training. To evaluate our models, we build comprehensive benchmarks for physical common sense and embodied reasoning according to our ontologies. Evaluation results show that Physical AI SFT and reinforcement learning bring significant improvements. To facilitate the development of Physical AI, we will make our code and pre-trained models available under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-reason1.
arxiv情報
著者 | NVIDIA,:,Alisson Azzolini,Hannah Brandon,Prithvijit Chattopadhyay,Huayu Chen,Jinju Chu,Yin Cui,Jenna Diamond,Yifan Ding,Francesco Ferroni,Rama Govindaraju,Jinwei Gu,Siddharth Gururani,Imad El Hanafi,Zekun Hao,Jacob Huffman,Jingyi Jin,Brendan Johnson,Rizwan Khan,George Kurian,Elena Lantz,Nayeon Lee,Zhaoshuo Li,Xuan Li,Tsung-Yi Lin,Yen-Chen Lin,Ming-Yu Liu,Alice Luo,Andrew Mathau,Yun Ni,Lindsey Pavao,Wei Ping,David W. Romero,Misha Smelyanskiy,Shuran Song,Lyne Tchapmi,Andrew Z. Wang,Boxin Wang,Haoxiang Wang,Fangyin Wei,Jiashu Xu,Yao Xu,Xiaodong Yang,Zhuolin Yang,Xiaohui Zeng,Zhe Zhang |
発行日 | 2025-04-02 17:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google