Princeton365: A Diverse Dataset with Accurate Camera Pose

要約

正確なカメラポーズを使用した365ビデオの大規模な多様なデータセットであるPrinceton365を紹介します。
データセットは、キャリブレーションボードと360カメラを活用する新しいグラウンドトゥルースコレクションフレームワークを導入することにより、現在のスラムベンチマークの精度とデータの多様性のギャップを橋渡しします。
IMUと同様に、同期されたモノクラーおよびステレオRGBビデオ出力を使用して、屋内、屋外、およびオブジェクトスキャンビデオを収集します。
さらに、カメラのポーズ推定エラーによって誘導される光学フローに基づいて、SLAMの新しいシーンスケールアウェア評価メトリックを提案します。
現在のメトリックとは対照的に、当社の新しいメトリックにより、平均軌道エラー(ATE)などの既存のメトリックとは対照的に、シーン全体のスラムメソッドのパフォーマンスを比較でき、研究者がメソッドの障害モードを分析できるようになります。
また、360度のカメラの軌跡を備えた完全に非ランベルトのシーンなど、現在のNVSベンチマークでカバーされていないケースをカバーする挑戦的な新規ビュー合成ベンチマークを提案します。
データセット、コード、ビデオ、および提出については、https://princeton365.cs.princeton.eduにアクセスしてください。

要約(オリジナル)

We introduce Princeton365, a large-scale diverse dataset of 365 videos with accurate camera pose. Our dataset bridges the gap between accuracy and data diversity in current SLAM benchmarks by introducing a novel ground truth collection framework that leverages calibration boards and a 360-camera. We collect indoor, outdoor, and object scanning videos with synchronized monocular and stereo RGB video outputs as well as IMU. We further propose a new scene scale-aware evaluation metric for SLAM based on the the optical flow induced by the camera pose estimation error. In contrast to the current metrics, our new metric allows for comparison between the performance of SLAM methods across scenes as opposed to existing metrics such as Average Trajectory Error (ATE), allowing researchers to analyze the failure modes of their methods. We also propose a challenging Novel View Synthesis benchmark that covers cases not covered by current NVS benchmarks, such as fully non-Lambertian scenes with 360-degree camera trajectories. Please visit https://princeton365.cs.princeton.edu for the dataset, code, videos, and submission.

arxiv情報

著者 Karhan Kayan,Stamatis Alexandropoulos,Rishabh Jain,Yiming Zuo,Erich Liang,Jia Deng
発行日 2025-06-10 17:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Princeton365: A Diverse Dataset with Accurate Camera Pose はコメントを受け付けていません

Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better

要約

典型的な大規模なビジョン言語モデル(LVLMS)は、視覚的モダリティを学習プロセスに完全に組み込むことなく、テキストシーケンスにのみオートレーリング監督を適用します。
これにより、3つの重要な制限が生じます。(1)キャプションなしで画像を使用できないこと、(2)キャプションが重要な視覚的詳細を省略するリスク、および(3)特定のビジョン中心のコンテンツをテキストで適切に伝えることができないという課題。
その結果、現在のLVLMSは、しばしば視覚から言語へのアライメントを優先しながら、細粒の視覚情報を見下ろす可能性があります。
一部の以前の作品では、自動回復的な画像生成を調査していますが、画像の理解を高めるために自己回復的な視覚的監督を効果的に活用することは依然としてオープンな課題です。
このホワイトペーパーでは、統一された自己回帰フレームワーク内の視覚的およびテキストモダリティの共同学習を可能にする、自己回帰セマンティックビジュアル再構成(ASVR)を紹介します。
画像の生の視覚的外観を自動網目上再構築することは、マルチモーダルの理解を促進せず、さらにはマルチモーダルの理解を深める可能性さえあることを示します。
対照的に、画像のセマンティック表現を自動的に再構築すると、一貫して理解が向上します。
特に、モデルに入力として連続画像機能が与えられていても、離散セマンティックトークンを効果的に再構築し、幅広いマルチモーダル理解ベンチマークにわたって安定した一貫した改善をもたらすことができます。
私たちのアプローチは、さまざまなデータスケール(556K-2M)とLLMバッコンの種類にわたって大きなパフォーマンスの向上をもたらします。
具体的には、ASVRは、14のマルチモーダルベンチマークの平均スコアでLLAVA-1.5を5%改善します。
このコードは、https://github.com/alenjandrowang/asvrで入手できます。

要約(オリジナル)

Typical large vision-language models (LVLMs) apply autoregressive supervision solely to textual sequences, without fully incorporating the visual modality into the learning process. This results in three key limitations: (1) an inability to utilize images without accompanying captions, (2) the risk that captions omit critical visual details, and (3) the challenge that certain vision-centric content cannot be adequately conveyed through text. As a result, current LVLMs often prioritize vision-to-language alignment while potentially overlooking fine-grained visual information. While some prior works have explored autoregressive image generation, effectively leveraging autoregressive visual supervision to enhance image understanding remains an open challenge. In this paper, we introduce Autoregressive Semantic Visual Reconstruction (ASVR), which enables joint learning of visual and textual modalities within a unified autoregressive framework. We show that autoregressively reconstructing the raw visual appearance of images does not enhance and may even impair multimodal understanding. In contrast, autoregressively reconstructing the semantic representation of images consistently improves comprehension. Notably, we find that even when models are given continuous image features as input, they can effectively reconstruct discrete semantic tokens, resulting in stable and consistent improvements across a wide range of multimodal understanding benchmarks. Our approach delivers significant performance gains across varying data scales (556k-2M) and types of LLM bacbones. Specifically, ASVR improves LLaVA-1.5 by 5% in average scores across 14 multimodal benchmarks. The code is available at https://github.com/AlenjandroWang/ASVR.

arxiv情報

著者 Dianyi Wang,Wei Song,Yikun Wang,Siyuan Wang,Kaicheng Yu,Zhongyu Wei,Jiaqi Wang
発行日 2025-06-10 17:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better はコメントを受け付けていません

Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models

要約

自律車両(AV)などの安全性が批判的な物理AIシステムの実世界データを収集および注釈することは、時間がかかり、費用がかかります。
AVシステムのトレーニングとテストに重要な役割を果たすレアエッジケースをキャプチャすることは特に困難です。
この課題に対処するために、Cosmos-drive-dreams-on Syntetic Data Generation(SDG)パイプラインを紹介します。このパイプラインは、挑戦的なシナリオを生成して、認識や運転政策トレーニングなどのダウンストリームタスクを促進することを目的としています。
このパイプラインの動力は、駆動ドメイン向けのNvidia Cosmos World Foundationモデルから特化したモデルのスイートであり、制御可能で高忠実度、マルチビュー、および空間的に一貫したドライビングビデオ生成が可能です。
Cosmos-drive-dreamsを適用して、高忠実度と挑戦的なシナリオで運転データセットの量と多様性を拡大することにより、これらのモデルの有用性を紹介します。
実験的に、生成されたデータは、長期尾の分布の問題の緩和に役立ち、3Dレーン検出、3Dオブジェクト検出、ポリシー学習の促進などの下流タスクの一般化を強化することを実証します。
NvidiaのCosmosプラットフォームを介して、パイプラインツールキット、データセット、モデルの重みをオープンします。
プロジェクトページ:https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

要約(オリジナル)

Collecting and annotating real-world data for safety-critical physical AI systems, such as Autonomous Vehicle (AV), is time-consuming and costly. It is especially challenging to capture rare edge cases, which play a critical role in training and testing of an AV system. To address this challenge, we introduce the Cosmos-Drive-Dreams – a synthetic data generation (SDG) pipeline that aims to generate challenging scenarios to facilitate downstream tasks such as perception and driving policy training. Powering this pipeline is Cosmos-Drive, a suite of models specialized from NVIDIA Cosmos world foundation model for the driving domain and are capable of controllable, high-fidelity, multi-view, and spatiotemporally consistent driving video generation. We showcase the utility of these models by applying Cosmos-Drive-Dreams to scale the quantity and diversity of driving datasets with high-fidelity and challenging scenarios. Experimentally, we demonstrate that our generated data helps in mitigating long-tail distribution problems and enhances generalization in downstream tasks such as 3D lane detection, 3D object detection and driving policy learning. We open source our pipeline toolkit, dataset and model weights through the NVIDIA’s Cosmos platform. Project page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

arxiv情報

著者 Xuanchi Ren,Yifan Lu,Tianshi Cao,Ruiyuan Gao,Shengyu Huang,Amirmojtaba Sabour,Tianchang Shen,Tobias Pfaff,Jay Zhangjie Wu,Runjian Chen,Seung Wook Kim,Jun Gao,Laura Leal-Taixe,Mike Chen,Sanja Fidler,Huan Ling
発行日 2025-06-10 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models はコメントを受け付けていません

MagCache: Fast Video Generation with Magnitude-Aware Cache

要約

ビデオ拡散モデルの既存の加速手法は、多くの場合、均一なヒューリスティックまたは時間埋め込みバリアントに依存して、タイムステップをスキップしてキャッシュされた機能を再利用します。
これらのアプローチでは、通常、キュレーションされたプロンプトと、プロンプト固有の過剰適合によるリスクの一貫性のない出力を備えた広範なキャリブレーションが必要です。
この論文では、斬新で堅牢な発見を紹介します。さまざまなモデルとプロンプトにわたって観察される統一されたマグニチュード法則です。
具体的には、連続した残留出力の大きさ比は、ほとんどのタイムステップで単調にかつ着実に減少し、最後のいくつかのステップで急速に減少します。
この洞察を活用して、エラーモデリングメカニズムと適応型キャッシング戦略を使用して重要でないタイムステップを適応的にスキップするマグニチュード認識キャッシュ(Magcache)を導入します。
キャリブレーションのために数十のキュレーションされたサンプルを必要とする既存の方法とは異なり、Magcacheはキャリブレーションのために単一のサンプルのみを必要とします。
実験結果は、MagcacheがそれぞれオープンソラとWAN 2.1で2.1xおよび2.68倍のスピードアップを達成し、優れた視覚的忠実度を維持することを示しています。
同等の計算予算の下で、LPIPS、SSIM、およびPSNRの既存のメソッドを大幅に上回ります。

要約(オリジナル)

Existing acceleration techniques for video diffusion models often rely on uniform heuristics or time-embedding variants to skip timesteps and reuse cached features. These approaches typically require extensive calibration with curated prompts and risk inconsistent outputs due to prompt-specific overfitting. In this paper, we introduce a novel and robust discovery: a unified magnitude law observed across different models and prompts. Specifically, the magnitude ratio of successive residual outputs decreases monotonically and steadily in most timesteps while rapidly in the last several steps. Leveraging this insight, we introduce a Magnitude-aware Cache (MagCache) that adaptively skips unimportant timesteps using an error modeling mechanism and adaptive caching strategy. Unlike existing methods requiring dozens of curated samples for calibration, MagCache only requires a single sample for calibration. Experimental results show that MagCache achieves 2.1x and 2.68x speedups on Open-Sora and Wan 2.1, respectively, while preserving superior visual fidelity. It significantly outperforms existing methods in LPIPS, SSIM, and PSNR, under comparable computational budgets.

arxiv情報

著者 Zehong Ma,Longhui Wei,Feng Wang,Shiliang Zhang,Qi Tian
発行日 2025-06-10 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MagCache: Fast Video Generation with Magnitude-Aware Cache はコメントを受け付けていません

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

要約

動的環境で複数の具体化されたエージェントを調整することは、人工知能の中心的な課題であり、知覚主導の推論とスケーラブルな協力戦略の両方を必要とします。
最近の作品は、マルチエージェント計画のために大規模な言語モデル(LLM)を活用していますが、視覚的推論のためにビジョン言語モデル(VLMS)を探求し始めた人もいます。
ただし、これらのVLMベースのアプローチは、多様な具体化タイプをサポートするために限られたままです。
この作業では、具体化されたマルチエージェント協力のために調整された最初の階層ベンチマークであるViki-Benchを紹介します。
Viki-Benchには、多様なロボットの実施形態、マルチビューの視覚観測、および視覚入力に基づいた推論を評価するための構造化された監督シグナルが含まれています。
Viki-benchの有用性を実証するために、チェーン思考の注釈付きデモンストレーションを使用して、前処理されたビジョン言語モデル(VLM)を微調整する2段階のフレームワークであるViki-Rを提案し、その後、マルチレベルの報酬信号の下での強化学習が続きます。
私たちの広範な実験は、VIKI-Rがすべてのタスクレベルでベースライン法を大幅に上回ることを示しています。
さらに、強化学習により、不均一なエージェント間の組成協力パターンの出現が可能になることを示しています。
一緒に、Viki-BenchとViki-Rは、具体化されたAIシステムにおけるマルチエージェントの視覚的駆動型の協力を進めるための統一されたテストベンチと方法を提供します。

要約(オリジナル)

Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.

arxiv情報

著者 Li Kang,Xiufeng Song,Heng Zhou,Yiran Qin,Jie Yang,Xiaohong Liu,Philip Torr,Lei Bai,Zhenfei Yin
発行日 2025-06-10 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning はコメントを受け付けていません

Active inference as a unified model of collision avoidance behavior in human drivers

要約

衝突回避は、迅速な脅威の検出と適切な回避操作の迅速な実行を伴う – は、運転の重要な側面です。
ただし、人間の衝突回避行動の既存のモデルは断片化されており、特定のシナリオに焦点を当てたり、応答時間などの回避行動の特定の側面のみを説明しています。
このペーパーでは、積極的な推論に基づいた人間の衝突回避行動の新しい計算認知モデルを提案することにより、これらのギャップに対処します。
アクティブな推論は、人間の行動をモデル化するための統一されたアプローチ、つまり自由エネルギーの最小化を提供します。
以前の積極的な推論作業に基づいて、私たちのモデルには、2つの異なる衝突回避シナリオで人間の反応をシミュレートするための証拠蓄積などの確立された認知メカニズムが組み込まれています:対向車両による最前線のリード車両ブレーキングと横方向の侵入。
私たちのモデルは、人間の衝突回避行動に関する以前の経験的発見の幅広い範囲を説明していることを実証します。
具体的には、このモデルは、以前に報告されたメタ分析からの集計結果の両方を密接に再現し、応答タイミング、操作の選択、実行など、最近の運転シミュレーター研究で観察された詳細なシナリオ固有の効果の両方の総分析から密接に再現します。
私たちの結果は、複雑な現実の駆動タスクにおける人間の行動を理解し、モデル化するための統一されたフレームワークとしての積極的な推論の可能性を強調しています。

要約(オリジナル)

Collision avoidance — involving a rapid threat detection and quick execution of the appropriate evasive maneuver — is a critical aspect of driving. However, existing models of human collision avoidance behavior are fragmented, focusing on specific scenarios or only describing certain aspects of the avoidance behavior, such as response times. This paper addresses these gaps by proposing a novel computational cognitive model of human collision avoidance behavior based on active inference. Active inference provides a unified approach to modeling human behavior: the minimization of free energy. Building on prior active inference work, our model incorporates established cognitive mechanisms such as evidence accumulation to simulate human responses in two distinct collision avoidance scenarios: front-to-rear lead vehicle braking and lateral incursion by an oncoming vehicle. We demonstrate that our model explains a wide range of previous empirical findings on human collision avoidance behavior. Specifically, the model closely reproduces both aggregate results from meta-analyses previously reported in the literature and detailed, scenario-specific effects observed in a recent driving simulator study, including response timing, maneuver selection, and execution. Our results highlight the potential of active inference as a unified framework for understanding and modeling human behavior in complex real-life driving tasks.

arxiv情報

著者 Julian F. Schumann,Johan Engström,Leif Johnson,Matthew O’Kelly,Joao Messias,Jens Kober,Arkady Zgonnikov
発行日 2025-06-10 14:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Active inference as a unified model of collision avoidance behavior in human drivers はコメントを受け付けていません

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

要約

テスト時間スケーリングの現在のパラダイムは、応答を生成する前に、長い推論トレース(「考えている」)を生成することに依存しています。
相互作用を必要とするエージェントの問題では、これは世界で行動する前に思考の痕跡を生成することによって行うことができます。
ただし、このプロセスでは、エージェントが環境から新しい情報を取得したり、時間の経過とともに行動を適応させることはできません。
この作業では、テスト時間の相互作用をスケーリングすることを提案します。これは、テスト時間スケーリングの未開発の次元であり、エージェントの相互作用ホライズンを増加させて、1回のロールアウト内での探索、バックトラッキング、動的な再プランニングなどのリッチな行動を実行できるようにします。
このスケーリングディメンションの約束を示すために、Webエージェントの領域を研究します。
最初に、トレーニングなしでプロンプトベースのインタラクションスケーリングでさえ、Webベンチマークでのタスクの成功を不可欠で改善できることを示しています。
これに基づいて、カリキュラムベースのオンライン強化学習(RL)アプローチであるTTI(テスト時間インタラクション)を紹介します。
Gemma 3 12Bモデルを使用して、TTIは、WebVoyagerおよびWebArenaベンチマークで最先端のオープンソース、オープンデータWebエージェントを生成します。
さらに、TTIがエージェントが探索と搾取の適応的にバランスをとることができることを示します。
私たちの結果は、ステップあたりのコンピューティングスケーリングへの強力で相補的な軸としての相互作用スケーリングを確立し、適応エージェントをトレーニングするための新しい手段を提供します。

要約(オリジナル)

The current paradigm of test-time scaling relies on generating long reasoning traces (‘thinking’ more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent’s interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.

arxiv情報

著者 Junhong Shen,Hao Bai,Lunjun Zhang,Yifei Zhou,Amrith Setlur,Shengbang Tong,Diego Caples,Nan Jiang,Tong Zhang,Ameet Talwalkar,Aviral Kumar
発行日 2025-06-10 12:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction はコメントを受け付けていません

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

要約

テキストツーイメージ(T2I)モデルは、テキストプロンプトに沿った高品質の画像を生成するために大きな注意を集めています。
ただし、迅速なT2Iモデルの進歩により、初期のベンチマークの制限が明らかになりますが、包括的な評価はありません。たとえば、推論、テキストのレンダリング、スタイルに関する評価があります。
特に、豊富な知識モデリング機能を備えた最近の最先端のモデルは、強力な推論能力を必要とする画像生成の問題について有望な結果を示していますが、既存の評価システムはこのフロンティアに適切に対処していません。
これらのギャップに体系的に対処するために、プロンプトイメージのアライメント、精度のレンダリング、推論生成コンテンツ、スタイリライゼーション、多様性など、複数の次元にわたってT2Iモデルの微細に設計された包括的なベンチマークフレームワークであるOneig-Benchを紹介します。
評価を構成することにより、このベンチマークはモデルパフォーマンスの詳細な分析を可能にし、研究者と実践者が画像生成の完全なパイプラインで強度とボトルネックを特定するのを支援します。
具体的には、Oneig-Benchは、ユーザーが特定の評価サブセットに集中できるようにすることにより、柔軟な評価を可能にします。
プロンプトのセット全体の画像を生成する代わりに、ユーザーは選択したディメンションに関連付けられたプロンプトに対してのみ画像を生成し、それに応じて対応する評価を完了できます。
CodebaseとDatasetは、T2I研究コミュニティ内での再現可能な評価研究とクロスモデル比較を促進するために、公開されています。

要約(オリジナル)

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

arxiv情報

著者 Jingjing Chang,Yixiao Fang,Peng Xing,Shuhan Wu,Wei Cheng,Rui Wang,Xianfang Zeng,Gang Yu,Hai-Bao Chen
発行日 2025-06-10 12:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation はコメントを受け付けていません

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

要約

私たちの目的は、低レベルのスキルと、一連の画像を含む少数の短距離デモンストレーションを考慮して、複雑なロボット工学ドメインで長老の意思決定の問題を解決することを学ぶことです。
この目的のために、私たちは、計画を介して新しい目標へのゼロショットの一般化を促進する抽象的な象徴的な世界モデルを学ぶことに焦点を当てています。
このようなモデルの重要なコンポーネントは、オブジェクト間の特性と関係を定義するシンボリック述語のセットです。
この作業では、事前に処理されたビジョン言語モデル(VLM)を活用して、意思決定に潜在的に関連する視覚的述語の大規模なセットを提案し、カメラ画像から直接述語を評価することを提案します。
トレーニング時に、提案された述語とデモンストレーションを最適化ベースのモデル学習アルゴリズムに渡して、提案された述語のコンパクトなサブセットに関して定義された抽象的なシンボリックワールドモデルを取得します。
テスト時に、新しい設定で新しい目標を考慮して、VLMを使用して現在の世界状態の象徴的な説明を作成し、検索ベースの計画アルゴリズムを使用して、目標を達成する低レベルのスキルのシーケンスを見つけます。
シミュレーションと現実世界の両方で実験全体で経験的に実証し、私たちの方法は積極的に一般化し、学んだ世界モデルを適用して、さまざまなオブジェクトタイプ、アレンジメント、オブジェクトの数、視覚的背景、およびトレーニング時に見られるものよりもはるかに長い視野で問題を解決できることを実証します。

要約(オリジナル)

Our aim is to learn to solve long-horizon decision-making problems in complex robotics domains given low-level skills and a handful of short-horizon demonstrations containing sequences of images. To this end, we focus on learning abstract symbolic world models that facilitate zero-shot generalization to novel goals via planning. A critical component of such models is the set of symbolic predicates that define properties of and relationships between objects. In this work, we leverage pretrained vision language models (VLMs) to propose a large set of visual predicates potentially relevant for decision-making, and to evaluate those predicates directly from camera images. At training time, we pass the proposed predicates and demonstrations into an optimization-based model-learning algorithm to obtain an abstract symbolic world model that is defined in terms of a compact subset of the proposed predicates. At test time, given a novel goal in a novel setting, we use the VLM to construct a symbolic description of the current world state, and then use a search-based planning algorithm to find a sequence of low-level skills that achieves the goal. We demonstrate empirically across experiments in both simulation and the real world that our method can generalize aggressively, applying its learned world model to solve problems with a wide variety of object types, arrangements, numbers of objects, and visual backgrounds, as well as novel goals and much longer horizons than those seen at training time.

arxiv情報

著者 Ashay Athalye,Nishanth Kumar,Tom Silver,Yichao Liang,Jiuguang Wang,Tomás Lozano-Pérez,Leslie Pack Kaelbling
発行日 2025-06-10 03:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models はコメントを受け付けていません

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models

要約

大規模な言語モデル(LLMS)および視覚言語モデル(VLM)の最近の進歩は、ロボット工学に大きな影響を与え、高レベルのセマンティックモーションプランニングアプリケーションを可能にします。
補完的なパラダイムである強化学習(RL)は、エージェントが相互作用と報酬シグナルを通じて複雑な動作を自律的に最適化することを可能にします。
ただし、RLの効果的な報酬機能の設計は、特にまばらな報酬が不十分で密集した報酬が必要な実世界のタスクでは、精巧な設計が必要です。
この作業では、自然言語のタスクの説明から直接報酬機能を生成するために、訓練を受けたLLMであるGPT-4をレバレッジしている監視されていないパイプラインである複雑な人間に基づいた環境(Archie)の自律強化学習を提案します。
報酬は、シミュレートされた環境でRLエージェントをトレーニングするために使用されます。この環境では、実現可能性を高めるために報酬生成プロセスを形式化します。
さらに、GPT-4は、タスクの成功基準のコーディングを自動化し、人間が読みやすいテキストを展開可能なロボットスキルに変換するための完全に自動化されたワンショット手順を作成します。
私たちのアプローチは、ABBユミの共同ロボットを使用した単一腕および双方数の操作タスクに関する広範なシミュレーション実験を通じて検証され、その実用性と有効性を強調しています。
実際のロボットのセットアップでタスクが実証されています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) and Visual Language Models (VLMs) have significantly impacted robotics, enabling high-level semantic motion planning applications. Reinforcement Learning (RL), a complementary paradigm, enables agents to autonomously optimize complex behaviors through interaction and reward signals. However, designing effective reward functions for RL remains challenging, especially in real-world tasks where sparse rewards are insufficient and dense rewards require elaborate design. In this work, we propose Autonomous Reinforcement learning for Complex Human-Informed Environments (ARCHIE), an unsupervised pipeline leveraging GPT-4, a pre-trained LLM, to generate reward functions directly from natural language task descriptions. The rewards are used to train RL agents in simulated environments, where we formalize the reward generation process to enhance feasibility. Additionally, GPT-4 automates the coding of task success criteria, creating a fully automated, one-shot procedure for translating human-readable text into deployable robot skills. Our approach is validated through extensive simulated experiments on single-arm and bi-manual manipulation tasks using an ABB YuMi collaborative robot, highlighting its practicality and effectiveness. Tasks are demonstrated on the real robot setup.

arxiv情報

著者 Niccolò Turcato,Matteo Iovino,Aris Synodinos,Alberto Dalla Libera,Ruggero Carli,Pietro Falco
発行日 2025-06-10 08:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models はコメントを受け付けていません