SITE: towards Spatial Intelligence Thorough Evaluation

要約

Spatial Intelligence(SI)は、神経科学からロボット工学への分野を支える空間的関係についての視覚化、操作、および推論を含む認知能力を表します。
We introduce SITE, a benchmark dataset towards SI Thorough Evaluation in a standardized format of multi-choice visual question-answering, designed to assess large vision-language models’ spatial intelligence across diverse visual modalities (single-image, multi-image, and video) and SI factors (figural to environmental scales, spatial visualization and orientation, intrinsic and extrinsic, static and dynamic).
ベンチマークをキュレーションするアプローチは、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づいたトップダウン戦略を組み合わせて、ビューテイキングとダイナミックなシーンに関する2つの新しいタイプのタスクを設計することを促します。
広範な実験により、主要なモデルは、特に基本的なSI要因である空間的方向において、人間の専門家に遅れをとっていることが明らかになりました。
さらに、モデルの空間的推論能力と具体化されたAIタスクでのパフォーマンスとの間に正の相関関係を示します。

要約(オリジナル)

Spatial intelligence (SI) represents a cognitive ability encompassing the visualization, manipulation, and reasoning about spatial relationships, underpinning disciplines from neuroscience to robotics. We introduce SITE, a benchmark dataset towards SI Thorough Evaluation in a standardized format of multi-choice visual question-answering, designed to assess large vision-language models’ spatial intelligence across diverse visual modalities (single-image, multi-image, and video) and SI factors (figural to environmental scales, spatial visualization and orientation, intrinsic and extrinsic, static and dynamic). Our approach to curating the benchmark combines a bottom-up survey about 31 existing datasets and a top-down strategy drawing upon three classification systems in cognitive science, which prompt us to design two novel types of tasks about view-taking and dynamic scenes. Extensive experiments reveal that leading models fall behind human experts especially in spatial orientation, a fundamental SI factor. Moreover, we demonstrate a positive correlation between a model’s spatial reasoning proficiency and its performance on an embodied AI task.

arxiv情報

著者 Wenqi Wang,Reuben Tan,Pengyue Zhu,Jianwei Yang,Zhengyuan Yang,Lijuan Wang,Andrey Kolobov,Jianfeng Gao,Boqing Gong
発行日 2025-05-08 17:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SITE: towards Spatial Intelligence Thorough Evaluation はコメントを受け付けていません

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

要約

StreamBridgeを紹介します。これは、オフラインのビデオllmsをストリーミング対応モデルにシームレスに変換するシンプルで効果的なフレームワークです。
既存のモデルをオンラインシナリオに適応させる際の2つの基本的な課題に対処します。(1)マルチターンのリアルタイム理解のための限られた機能、および(2)積極的な応答メカニズムの欠如。
具体的には、Streambridgeには、(1)丸い延期圧縮戦略と組み合わせたメモリバッファーが組み込まれており、長いコンテキストのマルチターン相互作用をサポートし、(2)既存のビデオLLMに簡単に統合され、連続的なプロアクティブな応答を可能にする可能性のある軽量な活性化モデルが組み込まれています。
Streambridgeをさらにサポートするために、ビデオテキストシーケンスと多様な命令形式を備えた、ビデオテキストシーケンスと多様な命令形式を備えた、ビデオ理解のストリーミングに合わせた大規模なデータセットであるStream-ITを構築します。
広範な実験では、StreambridgeがさまざまなタスクにわたるオフラインビデオLLMのストリーミング理解機能を大幅に改善し、GPT-4oやGemini 1.5 Proなどの独自モデルを上回ることを示しています。
同時に、標準的なビデオ理解ベンチマークで競争力のあるパフォーマンスまたは優れたパフォーマンスを実現します。

要約(オリジナル)

We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-LLMs into streaming-capable models. It addresses two fundamental challenges in adapting existing models into online scenarios: (1) limited capability for multi-turn real-time understanding, and (2) lack of proactive response mechanisms. Specifically, StreamBridge incorporates (1) a memory buffer combined with a round-decayed compression strategy, supporting long-context multi-turn interactions, and (2) a decoupled, lightweight activation model that can be effortlessly integrated into existing Video-LLMs, enabling continuous proactive responses. To further support StreamBridge, we construct Stream-IT, a large-scale dataset tailored for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. Extensive experiments show that StreamBridge significantly improves the streaming understanding capabilities of offline Video-LLMs across various tasks, outperforming even proprietary models such as GPT-4o and Gemini 1.5 Pro. Simultaneously, it achieves competitive or superior performance on standard video understanding benchmarks.

arxiv情報

著者 Haibo Wang,Bo Feng,Zhengfeng Lai,Mingze Xu,Shiyu Li,Weifeng Ge,Afshin Dehghan,Meng Cao,Ping Huang
発行日 2025-05-08 17:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant はコメントを受け付けていません

Generating Physically Stable and Buildable LEGO Designs from Text

要約

テキストプロンプトから物理的に安定したレゴブリックモデルを生成するための最初のアプローチであるLegoGPTを紹介します。
これを実現するために、レゴデザインの大規模で物理的に安定したデータセットを構築し、関連するキャプションを作成し、次のレンガを予測するための自動網羅的な大きな言語モデルを訓練し、次のトークン予測を介して追加します。
結果として生じる設計の安定性を改善するために、自己回帰推論中に効率的な妥当性チェックと物理認識ロールバックを採用します。
私たちの実験は、LEGOGPTが入力テキストプロンプトと密接に整合する安定した、多様で、審美的に心地よいLEGOデザインを生成することを示しています。
また、テキストベースのレゴテクスチャリング方法を開発して、色付きのテクスチャデザインを生成します。
私たちのデザインは、人間によって手動で、ロボットアームによって自動的に組み立てられることを示しています。
また、新しいデータセットであるStableText2legoをリリースします。これは、詳細なキャプションを伴う28,000を超える一意の3Dオブジェクトの47,000を超えるLEGO構造を、プロジェクトWebサイトのコードとモデル(https://avalovelace1.github.io/legogpt/)をリリースします。

要約(オリジナル)

We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from text prompts. To achieve this, we construct a large-scale, physically stable dataset of LEGO designs, along with their associated captions, and train an autoregressive large language model to predict the next brick to add via next-token prediction. To improve the stability of the resulting designs, we employ an efficient validity check and physics-aware rollback during autoregressive inference, which prunes infeasible token predictions using physics laws and assembly constraints. Our experiments show that LegoGPT produces stable, diverse, and aesthetically pleasing LEGO designs that align closely with the input text prompts. We also develop a text-based LEGO texturing method to generate colored and textured designs. We show that our designs can be assembled manually by humans and automatically by robotic arms. We also release our new dataset, StableText2Lego, containing over 47,000 LEGO structures of over 28,000 unique 3D objects accompanied by detailed captions, along with our code and models at the project website: https://avalovelace1.github.io/LegoGPT/.

arxiv情報

著者 Ava Pun,Kangle Deng,Ruixuan Liu,Deva Ramanan,Changliu Liu,Jun-Yan Zhu
発行日 2025-05-08 17:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generating Physically Stable and Buildable LEGO Designs from Text はコメントを受け付けていません

Flow-GRPO: Training Flow Matching Models via Online RL

要約

Flow-Grpoを提案します。これは、オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法です。
私たちのアプローチでは、2つの重要な戦略を使用しています。(1)決定論的な通常の微分方程式(ODE)をすべてのタイムステップで元のモデルの周辺分布と一致させる同等の確率微分方程式(SDE)に変換するODE-SDE変換を使用し、RL探査の統計サンプリングを可能にします。
(2)元の推論のタイムステップ数を保持しながらトレーニングの除去ステップを減らす除去削減戦略、パフォーマンスの低下なしでサンプリング効率を大幅に改善します。
経験的には、フローグルポは複数のテキストから画像へのタスクにわたって効果的です。
複雑な組成の場合、RLチューニングSD3.5は、ほぼ完全なオブジェクトカウント、空間的関係、および細粒属性を生成し、$ 63 \%$から95 \%$から遺伝的精度を高めます。
視覚的なテキストレンダリングでは、その精度は59ドル\%$から92ドル\%$に向上し、テキスト生成を大幅に向上させます。
Flow-Grpoは、人間の好みの整合性の大幅な利益も達成します。
特に、報酬のハッキングはほとんどまたはまったく発生しませんでした。つまり、報酬は画質や多様性のコストで増加せず、両方とも実験で安定したままでした。

要約(オリジナル)

We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model’s marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from $63\%$ to $95\%$. In visual text rendering, its accuracy improves from $59\%$ to $92\%$, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.

arxiv情報

著者 Jie Liu,Gongye Liu,Jiajun Liang,Yangguang Li,Jiaheng Liu,Xintao Wang,Pengfei Wan,Di Zhang,Wanli Ouyang
発行日 2025-05-08 17:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Flow-GRPO: Training Flow Matching Models via Online RL はコメントを受け付けていません

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation

要約

画像の理解と生成のための統一されたモデルの最近の進歩は印象的ですが、ほとんどのアプローチは、複数のモダリティを条件とする単一モーダル生成に限定されたままです。
この論文では、因果的アプローチを通じてインターリーブされたマルチモーダル生成を可能にすることにより、このパラダイムを前進させる統一されたフレームワークであるMogaoを提示します。
Mogaoは、アーキテクチャ設計の重要な技術的改善のセットを統合します。これには、揚げ物設計、デュアルビジョンエンコーダー、インターリーブロータリー位置の埋め込み、マルチモーダル分類子フリーガイダンスが含まれます。
これらの実際的な改善により、モガオはインターリーブのテキストと画像のシーケンスを任意に処理するのに特に効果的です。
統一されたモデルの可能性をさらにロック解除するために、共同テキストと画像生成のために特別にキュレーションされた大規模な社内データセットに効率的なトレーニング戦略を導入します。
広範な実験は、モガオがマルチモーダルの理解とテキストからイメージの生成において最先端のパフォーマンスを達成するだけでなく、高品質の一貫したインターリーブ出力の生産にも優れていることを示しています。
ゼロショット画像の編集と構成の生成におけるその緊急機能は、モガオを実用的なオムニモーダルファンデーションモデルとして強調し、将来の開発への道を開き、統一されたマルチモーダルシステムを拡大します。

要約(オリジナル)

Recent progress in unified models for image understanding and generation has been impressive, yet most approaches remain limited to single-modal generation conditioned on multiple modalities. In this paper, we present Mogao, a unified framework that advances this paradigm by enabling interleaved multi-modal generation through a causal approach. Mogao integrates a set of key technical improvements in architecture design, including a deep-fusion design, dual vision encoders, interleaved rotary position embeddings, and multi-modal classifier-free guidance, which allow it to harness the strengths of both autoregressive models for text generation and diffusion models for high-quality image synthesis. These practical improvements also make Mogao particularly effective to process interleaved sequences of text and images arbitrarily. To further unlock the potential of unified models, we introduce an efficient training strategy on a large-scale, in-house dataset specifically curated for joint text and image generation. Extensive experiments show that Mogao not only achieves state-of-the-art performance in multi-modal understanding and text-to-image generation, but also excels in producing high-quality, coherent interleaved outputs. Its emergent capabilities in zero-shot image editing and compositional generation highlight Mogao as a practical omni-modal foundation model, paving the way for future development and scaling the unified multi-modal systems.

arxiv情報

著者 Chao Liao,Liyang Liu,Xun Wang,Zhengxiong Luo,Xinyu Zhang,Wenliang Zhao,Jie Wu,Liang Li,Zhi Tian,Weilin Huang
発行日 2025-05-08 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation はコメントを受け付けていません

DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion

要約

現在の構造からの構造(SFM)メソッドは、通常、2段階のパイプラインに続き、学習または幾何学的なペアワイズの推論とその後のグローバルな最適化ステップを組み合わせます。
対照的に、マルチビュー画像から3Dシーンのジオメトリとカメラのポーズを直接誘導するデータ駆動型のマルチビュー推論アプローチを提案します。
私たちのフレームワークであるdiffusionsfmは、シーンのジオメトリとカメラをグローバルフレームのピクセルごとの光線起源とエンドポイントとしてパラメーター化し、トランスベースの拡散モデルを使用してマルチビュー入力からそれらを予測します。
欠落したデータと無制限のシーン座標で拡散モデルをトレーニングする際の実際的な課題に対処するために、堅牢な学習を確保する特殊なメカニズムを導入します。
合成データセットと実際のデータセットの両方で拡散を経験的に検証し、自然に不確実性をモデル化しながら、古典的および学習ベースのアプローチよりも優れていることを示しています。

要約(オリジナル)

Current Structure-from-Motion (SfM) methods typically follow a two-stage pipeline, combining learned or geometric pairwise reasoning with a subsequent global optimization step. In contrast, we propose a data-driven multi-view reasoning approach that directly infers 3D scene geometry and camera poses from multi-view images. Our framework, DiffusionSfM, parameterizes scene geometry and cameras as pixel-wise ray origins and endpoints in a global frame and employs a transformer-based denoising diffusion model to predict them from multi-view inputs. To address practical challenges in training diffusion models with missing data and unbounded scene coordinates, we introduce specialized mechanisms that ensure robust learning. We empirically validate DiffusionSfM on both synthetic and real datasets, demonstrating that it outperforms classical and learning-based approaches while naturally modeling uncertainty.

arxiv情報

著者 Qitao Zhao,Amy Lin,Jeff Tan,Jason Y. Zhang,Deva Ramanan,Shubham Tulsiani
発行日 2025-05-08 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion はコメントを受け付けていません

3D Scene Generation: A Survey

要約

3Dシーンジェネレーションは、没入型メディア、ロボット工学、自律運転、具体化されたAIなどのアプリケーションのために、空間的に構造化された、意味的に意味のある、および光エアリスティックな環境を合成しようとしています。
手続き上のルールに基づいた初期の方法では、スケーラビリティが提供されましたが、多様性は限られていました。
深い生成モデル(GAN、拡散モデルなど)および3D表現(NERF、3Dガウス)の最近の進歩により、実際のシーン分布の学習、忠実度、多様性、およびビューの一貫性の学習が可能になりました。
拡散モデルのような最近の進歩は、画像またはビデオ統合の問題として生成を再構成することにより、3Dシーンの合成と光リアリズムをブリッジします。
この調査では、最先端のアプローチの体系的な概要を提供し、手続きの生成、ニューラル3Dベースの生成、画像ベースの世代、ビデオベースの世代の4つのパラダイムに整理します。
それらの技術的基盤、トレードオフ、および代表的な結果を分析し、一般的に使用されるデータセット、評価プロトコル、およびダウンストリームアプリケーションをレビューします。
締めくくり、生成能力、3D表現、データと注釈、評価における重要な課題について議論し、より高い忠実度、物理学を意識し、インタラクティブな生成、統一された知覚生成モデルなどの有望な方向を概説します。
このレビューは、3Dシーンの生成における最近の進歩を整理し、生成AI、3Dビジョン、および具体化された知性の交差点での有望な方向を強調しています。
進行中の開発を追跡するために、最新のプロジェクトページを維持しています:https://github.com/hzxie/awesome-3d-scene-generation。

要約(オリジナル)

3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photorealistic environments for applications such as immersive media, robotics, autonomous driving, and embodied AI. Early methods based on procedural rules offered scalability but limited diversity. Recent advances in deep generative models (e.g., GANs, diffusion models) and 3D representations (e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene distributions, improving fidelity, diversity, and view consistency. Recent advances like diffusion models bridge 3D scene synthesis and photorealism by reframing generation as image or video synthesis problems. This survey provides a systematic overview of state-of-the-art approaches, organizing them into four paradigms: procedural generation, neural 3D-based generation, image-based generation, and video-based generation. We analyze their technical foundations, trade-offs, and representative results, and review commonly used datasets, evaluation protocols, and downstream applications. We conclude by discussing key challenges in generation capacity, 3D representation, data and annotations, and evaluation, and outline promising directions including higher fidelity, physics-aware and interactive generation, and unified perception-generation models. This review organizes recent advances in 3D scene generation and highlights promising directions at the intersection of generative AI, 3D vision, and embodied intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/hzxie/Awesome-3D-Scene-Generation.

arxiv情報

著者 Beichen Wen,Haozhe Xie,Zhaoxi Chen,Fangzhou Hong,Ziwei Liu
発行日 2025-05-08 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D Scene Generation: A Survey はコメントを受け付けていません

SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation

要約

単一の画像から高品質のアニメーション可能な3Dヒトアバターを作成すると、単一の観点から完全な3D情報を再構築することが固有の難しさがあるため、コンピュータービジョンにおける重要な課題のままです。
現在のアプローチは明確な制限に直面しています。3Dガウススプラッティング(3DGS)メソッドは高品質の結果を生成しますが、複数のビューまたはビデオシーケンスが必要です。一方、ビデオ拡散モデルは、単一の画像からアニメーションを生成できますが、一貫性とアイデンティティの保存と闘うことができます。
SVADは、既存の技術の補完的な強さを活用することにより、これらの制限に対処する新しいアプローチです。
私たちの方法は、ビデオ拡散を通じて合成トレーニングデータを生成し、アイデンティティの保存と画像修復モジュールでそれを強化し、この洗練されたデータを利用して3DGSアバターを訓練します。
包括的な評価は、SVADが、リアルタイムのレンダリング機能を有効にしながら、新しいポーズと視点でアイデンティティの一貫性と細かい詳細を維持する際に、最先端の(SOTA)シングルイメージの方法を上回ることを示しています。
データの増強パイプラインを通じて、従来の3DGSアプローチで通常必要とされる密な単眼またはマルチビュートレーニングデータへの依存を克服します。
広範な定量的、定性的比較は、私たちの方法がベースラインモデルに対して複数のメトリックにわたって優れたパフォーマンスを達成することを示しています。
拡散モデルの生成パワーを高品質の結果と3DGの効率の両方を効果的に組み合わせることにより、我々の作業は、単一の画像入力からの高フィ性アバター生成のための新しいアプローチを確立します。

要約(オリジナル)

Creating high-quality animatable 3D human avatars from a single image remains a significant challenge in computer vision due to the inherent difficulty of reconstructing complete 3D information from a single viewpoint. Current approaches face a clear limitation: 3D Gaussian Splatting (3DGS) methods produce high-quality results but require multiple views or video sequences, while video diffusion models can generate animations from single images but struggle with consistency and identity preservation. We present SVAD, a novel approach that addresses these limitations by leveraging complementary strengths of existing techniques. Our method generates synthetic training data through video diffusion, enhances it with identity preservation and image restoration modules, and utilizes this refined data to train 3DGS avatars. Comprehensive evaluations demonstrate that SVAD outperforms state-of-the-art (SOTA) single-image methods in maintaining identity consistency and fine details across novel poses and viewpoints, while enabling real-time rendering capabilities. Through our data augmentation pipeline, we overcome the dependency on dense monocular or multi-view training data typically required by traditional 3DGS approaches. Extensive quantitative, qualitative comparisons show our method achieves superior performance across multiple metrics against baseline models. By effectively combining the generative power of diffusion models with both the high-quality results and rendering efficiency of 3DGS, our work establishes a new approach for high-fidelity avatar generation from a single image input.

arxiv情報

著者 Yonwoo Choi
発行日 2025-05-08 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation はコメントを受け付けていません

Demonstrating ViSafe: Vision-enabled Safety for High-speed Detect and Avoid

要約

保証された安全性分離は、共有空域で空中車両のシームレスな高密度操作を達成するために不可欠です。
リソースに制約のある空中システムにこの安全性が批判的な機能を装備するために、高速視力のみの空中衝突回避システムであるVisafeを紹介します。
Visafeは、SWAP-C制約の下で設計されたカスタムマルチカメラハードウェアプロトタイプと学習ベースのEdge-AIフレームワークをしっかりと統合することにより、検出および回避の問題に対するフルスタックソリューションを提供します。
知覚入力に焦点を当てた制御バリア関数(CBF)を活用して安全性のしきい値を設計、エンコード、および実施することにより、Visafeは高速航空操作における自己分離のための確かな安全なランタイム保証を提供できます。
シミュレートされたデジタルツインと実世界の飛行シナリオの両方を含む広範なテストキャンペーンを通じて、Visafeのパフォーマンスを評価します。
エージェントの種類、閉鎖率、相互作用の幾何学、環境条件(気象や照明など)によって独立してさまざまな種類によって、Visafeが一貫して多様なシナリオ全体で自己分離を保証することを実証します。
閉鎖率が144 km/hに達する最初の実世界の高速衝突回避テストでは、Visafeは視力のみの自律衝突回避のための新しいベンチマークを設定し、高速航空ナビゲーションの安全性の新しい基準を確立します。

要約(オリジナル)

Assured safe-separation is essential for achieving seamless high-density operation of airborne vehicles in a shared airspace. To equip resource-constrained aerial systems with this safety-critical capability, we present ViSafe, a high-speed vision-only airborne collision avoidance system. ViSafe offers a full-stack solution to the Detect and Avoid (DAA) problem by tightly integrating a learning-based edge-AI framework with a custom multi-camera hardware prototype designed under SWaP-C constraints. By leveraging perceptual input-focused control barrier functions (CBF) to design, encode, and enforce safety thresholds, ViSafe can provide provably safe runtime guarantees for self-separation in high-speed aerial operations. We evaluate ViSafe’s performance through an extensive test campaign involving both simulated digital twins and real-world flight scenarios. By independently varying agent types, closure rates, interaction geometries, and environmental conditions (e.g., weather and lighting), we demonstrate that ViSafe consistently ensures self-separation across diverse scenarios. In first-of-its-kind real-world high-speed collision avoidance tests with closure rates reaching 144 km/h, ViSafe sets a new benchmark for vision-only autonomous collision avoidance, establishing a new standard for safety in high-speed aerial navigation.

arxiv情報

著者 Parv Kapoor,Ian Higgins,Nikhil Keetha,Jay Patrikar,Brady Moon,Zelin Ye,Yao He,Ivan Cisneros,Yaoyu Hu,Changliu Liu,Eunsuk Kang,Sebastian Scherer
発行日 2025-05-08 14:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Demonstrating ViSafe: Vision-enabled Safety for High-speed Detect and Avoid はコメントを受け付けていません

SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

要約

ロボット工学の効率的なパス計画、特に大規模で動的な環境内では、依然として重要なハードルです。
大規模な言語モデル(LLM)は強力な推論機能を提供しますが、その高い計算コストと動的シナリオでの適応性が限られていることは、エッジデバイスでのリアルタイムの展開を妨げます。
SmallPlanを提示します。これは、高レベルのパス計画タスクのために軽量の小言語モデル(SLM)をトレーニングするための教師モデルとしてLLMを活用する新しいフレームワークです。
Smallplanでは、SLMSは、フルスケールの3Dシーンをコンパクトに表すシーングラフを横断する最適なアクションシーケンスを提供します。
SLMは、LLMガイド付きの監視施設微調整(SFT)および補強学習(RL)を使用して、シミュレーション駆動のインターリーブされた方法でトレーニングされています。
この戦略により、SLMSはナビゲーションタスクを正常に完了することを可能にするだけでなく、移動距離や試験数などの重要な要因を認識させることができます。
実験を通じて、微調整されたSLMSは、幻覚や過剰フィッティングに苦しむことなく、シーケンシャルパス計画でGPT-4Oなどのより大きなモデルと競合することを実証します。
Smallplanはリソース効率が高く、エッジデバイスの展開と実用的な自律的ロボット工学の進歩に適しています。

要約(オリジナル)

Efficient path planning in robotics, particularly within large-scale, dynamic environments, remains a significant hurdle. While Large Language Models (LLMs) offer strong reasoning capabilities, their high computational cost and limited adaptability in dynamic scenarios hinder real-time deployment on edge devices. We present SmallPlan — a novel framework leveraging LLMs as teacher models to train lightweight Small Language Models (SLMs) for high-level path planning tasks. In SmallPlan, the SLMs provide optimal action sequences to navigate across scene graphs that compactly represent full-scaled 3D scenes. The SLMs are trained in a simulation-powered, interleaved manner with LLM-guided supervised fine-tuning (SFT) and reinforcement learning (RL). This strategy not only enables SLMs to successfully complete navigation tasks but also makes them aware of important factors like travel distance and number of trials. Through experiments, we demonstrate that the fine-tuned SLMs perform competitively with larger models like GPT-4o on sequential path planning, without suffering from hallucination and overfitting. SmallPlan is resource-efficient, making it well-suited for edge-device deployment and advancing practical autonomous robotics.

arxiv情報

著者 Quang P. M. Pham,Khoi T. N. Nguyen,Nhi H. Doan,Cuong A. Pham,Kentaro Inui,Dezhen Song
発行日 2025-05-08 13:12:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation はコメントを受け付けていません