GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

要約

VLMを搭載したGUIエージェントを構築する際の主な課題の1つは、視覚的グラウンディング、すなわち、視覚的コンテンツとテキストプランの両方に基づいて、アクション実行のために適切な画面領域を特定することである。ほとんどの既存の研究は、これをテキストベースの座標生成タスクとして定式化している。しかしながら、これらのアプローチは、空間的意味的整合が弱い、曖昧な監督対象を扱えない、画面座標の密な性質と、Vision Transformersのようなモデルによって抽出された視覚的特徴の粗いパッチレベルの粒度との間のミスマッチ、といったいくつかの限界に悩まされている。本論文では、座標フリーのGUIグラウンディングのためのVLMベースの手法であるGUI-Actorを提案する。その中核として、GUI-Actorはアテンションベースのアクションヘッドを導入し、専用のトークンを全ての関連する視覚パッチトークンと整合させることを学習し、モデルが1回のフォワードパスで1つ以上のアクション領域を提案することを可能にする。さらに、アクション実行のために提案された候補から最も妥当なアクション領域を評価・選択するための接地検証器を設計する。広範な実験により、GUI-Actorは複数のGUIアクショングラウンディングベンチマークにおいて、未知の画面解像度やレイアウトに対する汎化が改善され、先行する最先端の手法を凌駕することが示された。特に、GUI-Actor-7BはScreenSpot-ProにおいてUI-TARS-72B(38.1)を上回り、Qwen2-VLで40.7、Qwen2.5-VLで44.6を達成した。さらに、検証機を組み込むことで、VLMバックボーンを凍結したまま、新たに導入したアクションヘッド(7Bモデルで約100Mのパラメータ)のみを微調整することで、従来の最先端モデルに匹敵する性能を達成できることがわかり、GUI-Actorが、その汎用的な強みを損なうことなく、基礎となるVLMに効果的な接地能力を付与できることが浮き彫りになった。

要約(オリジナル)

One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated token with all relevant visual patch tokens, enabling the model to propose one or more action regions in a single forward pass. In line with this, we further design a grounding verifier to evaluate and select the most plausible action region from the candidates proposed for action execution. Extensive experiments show that GUI-Actor outperforms prior state-of-the-art methods on multiple GUI action grounding benchmarks, with improved generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by incorporating the verifier, we find that fine-tuning only the newly introduced action head (~100M parameters for 7B model) while keeping the VLM backbone frozen is sufficient to achieve performance comparable to previous state-of-the-art models, highlighting that GUI-Actor can endow the underlying VLM with effective grounding capabilities without compromising its general-purpose strengths.

arxiv情報

著者 Qianhui Wu,Kanzhi Cheng,Rui Yang,Chaoyun Zhang,Jianwei Yang,Huiqiang Jiang,Jian Mu,Baolin Peng,Bo Qiao,Reuben Tan,Si Qin,Lars Liden,Qingwei Lin,Huan Zhang,Tong Zhang,Jianbing Zhang,Dongmei Zhang,Jianfeng Gao
発行日 2025-06-03 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents はコメントを受け付けていません

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

要約

意味検索は現代のアプリケーションにとって極めて重要であるが、現在の研究ではまだ十分に研究されていない。既存のデータセットは、単一言語、単一画像、単一検索条件に限定されており、画像をキャプションで置き換えた場合でも性能が維持されていることからわかるように、視覚情報の表現能力を十分に活用できていないことが多い。しかし、実用的な検索シナリオでは、複数の画像を含む複数条件のクエリをインターリーブすることが多い。そこで本稿では、インターリーブされた複数条件による意味検索のための初の多言語データセットであるMERITを紹介する。MERITは、7つの異なる商品カテゴリをカバーする、5言語、135,000商品、320,000クエリから構成される。MERITを用いた広範な実験により、既存のモデルの限界が明らかになった。それは、クエリ中の特定の条件要素を無視する一方で、大域的な意味情報のみに注目するという点である。その結果、我々はCoralを提案する。Coralは、きめ細かな条件要素を保持するための埋め込み再構成と、包括的な大域的意味情報を抽出するための対照学習を統合することで、事前に訓練されたMLLMを適応させる新しい微調整フレームワークである。実験により、CoralはMERITにおいて従来のアプローチと比較して45.9%の性能向上を達成し、8つの確立された検索ベンチマークで検証された強力な汎化能力を持つことが実証された。この成果は、新しいデータセット、既存のアプローチにおける重大な限界の特定、革新的な微調整フレームワークなど、今後のインターリーブ型マルチ条件付き意味検索研究の基盤を確立するものである。

要約(オリジナル)

Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models’s limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions – a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework – establish a foundation for future research in interleaved multi-condition semantic retrieval.

arxiv情報

著者 Wei Chow,Yuan Gao,Linfeng Li,Xian Wang,Qi Xu,Hang Song,Lingdong Kong,Ran Zhou,Yi Zeng,Yidong Cai,Botian Jiang,Shilin Xu,Jiajun Zhang,Minghui Qiu,Xiangtai Li,Tianshu Yang,Siliang Tang,Juncheng Li
発行日 2025-06-03 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.MM | MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query はコメントを受け付けていません

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約

既存の統一的なモデルは、視覚言語理解やテキストから画像への生成では強力な性能を発揮しますが、幅広い応用のためにユーザが切望している画像知覚や操作タスクの探求には限界があります。最近、OpenAIは、包括的な画像知覚と操作のための強力なGPT-4o-Imageモデルをリリースし、表現能力を達成し、コミュニティの関心を集めました。GPT-4o-Imageの性能を注意深く構築した実験で観察することで、GPT-4o-ImageはVAEの代わりにセマンティックエンコーダによって抽出された特徴を活用していることが推測される。このような刺激的な観察に動機づけられ、我々は、強力な視覚言語モデルと対照的な意味エンコーダによって提供される意味的特徴に基づく、UniWorldと名付けられた統一的な生成フレームワークを提示する。その結果、BAGELのわずか1%のデータ量で強力な統一モデルを構築し、画像編集ベンチマークにおいて常にBAGELを上回る性能を発揮する。UniWorldはまた、競争力のある画像理解と生成能力を維持し、複数の画像知覚タスクで強力な性能を達成しています。UniWorldは、モデルの重み、学習・評価スクリプト、データセットを含め、モデルを完全にオープンソース化しています。

要約(オリジナル)

Although existing unified models deliver strong performance on vision-language understanding and text-to-image generation, their models are limited in exploring image perception and manipulation tasks, which are urgently desired by users for wide applications. Recently, OpenAI released their powerful GPT-4o-Image model for comprehensive image perception and manipulation, achieving expressive capability and attracting community interests. By observing the performance of GPT-4o-Image in our carefully constructed experiments, we infer that GPT-4o-Image leverages features extracted by semantic encoders instead of VAE, while VAEs are considered essential components in many image manipulation models. Motivated by such inspiring observations, we present a unified generative framework named UniWorld based on semantic features provided by powerful visual-language models and contrastive semantic encoders. As a result, we build a strong unified model using only 1% amount of BAGEL’s data, which consistently outperforms BAGEL on image editing benchmarks. UniWorld also maintains competitive image understanding and generation capabilities, achieving strong performance across multiple image perception tasks. We fully open-source our models, including model weights, training and evaluation scripts, and datasets.

arxiv情報

著者 Bin Lin,Zongjian Li,Xinhua Cheng,Yuwei Niu,Yang Ye,Xianyi He,Shenghai Yuan,Wangbo Yu,Shaodong Wang,Yunyang Ge,Yatian Pang,Li Yuan
発行日 2025-06-03 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation はコメントを受け付けていません

Self-Supervised Spatial Correspondence Across Modalities

要約

我々は、クロスモーダルな時空間対応関係を見つける方法を提案する。RGB画像と深度マップのような、異なる視覚モダリティからの2つの画像が与えられたとき、我々のモデルは、どの画素の組がシーン内の同じ物理的点に対応するかを識別する。この問題を解決するために、我々は対比的ランダムウォークの枠組みを拡張し、クロスモーダルとイントラモーダルの両方のマッチングのために、サイクル整合的な特徴表現を同時に学習する。結果として得られるモデルは単純であり、明示的な写真一貫性の仮定を持たない。空間的に整列されたマルチモーダル画像ペアを必要とせず、ラベル付けされていないデータを用いて完全に学習することができる。本手法を幾何学的対応と意味的対応の両タスクで評価する。幾何学的マッチングについては、RGB-深度マッチングやRGB-熱マッチング(およびその逆)のような困難なタスクを考慮し、意味的マッチングについては、フォトスケッチとクロススタイル画像アライメントで評価する。我々の手法は全てのベンチマークにおいて高い性能を達成している。

要約(オリジナル)

We present a method for finding cross-modal space-time correspondences. Given two images from different visual modalities, such as an RGB image and a depth map, our model identifies which pairs of pixels correspond to the same physical points in the scene. To solve this problem, we extend the contrastive random walk framework to simultaneously learn cycle-consistent feature representations for both cross-modal and intra-modal matching. The resulting model is simple and has no explicit photo-consistency assumptions. It can be trained entirely using unlabeled data, without the need for any spatially aligned multimodal image pairs. We evaluate our method on both geometric and semantic correspondence tasks. For geometric matching, we consider challenging tasks such as RGB-to-depth and RGB-to-thermal matching (and vice versa); for semantic matching, we evaluate on photo-sketch and cross-style image alignment. Our method achieves strong performance across all benchmarks.

arxiv情報

著者 Ayush Shrivastava,Andrew Owens
発行日 2025-06-03 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Self-Supervised Spatial Correspondence Across Modalities はコメントを受け付けていません

IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

要約

拡散ベースのモデルは、テキストまたは画像入力から高品質で高解像度のビデオシーケンスを生成することができるが、フレーム間でシーンの照明と視覚的外観を制御する際に、幾何学的手がかりを明示的に統合することができない。この限界に対処するために、我々は、3つの相補的な入力を受け入れるエンドツーエンドの拡散フレームワークであるIllumiCraftを提案する:(1)詳細な照明制御のためのハイダイナミックレンジ(HDR)ビデオマップ、(2)外観の手がかりを提供するためのランダムな照明変化を伴う合成された再照明フレーム(オプションで静的な背景参照画像とペア)、および(3)正確な3Dジオメトリ情報をキャプチャする3D点トラック。照明、アピアランス、ジオメトリのキューを統一された拡散アーキテクチャに統合することで、IllumiCraftはユーザーが定義したプロンプトに沿った時間的に一貫性のあるビデオを生成します。背景条件付きおよびテキスト条件付きのビデオ再照明をサポートし、既存の制御可能なビデオ生成方法よりも優れた忠実度を提供します。プロジェクトページ: https://yuanze-lin.me/IllumiCraft_page

要約(オリジナル)

Although diffusion-based models can generate high-quality and high-resolution video sequences from textual or image inputs, they lack explicit integration of geometric cues when controlling scene lighting and visual appearance across frames. To address this limitation, we propose IllumiCraft, an end-to-end diffusion framework accepting three complementary inputs: (1) high-dynamic-range (HDR) video maps for detailed lighting control; (2) synthetically relit frames with randomized illumination changes (optionally paired with a static background reference image) to provide appearance cues; and (3) 3D point tracks that capture precise 3D geometry information. By integrating the lighting, appearance, and geometry cues within a unified diffusion architecture, IllumiCraft generates temporally coherent videos aligned with user-defined prompts. It supports background-conditioned and text-conditioned video relighting and provides better fidelity than existing controllable video generation methods. Project Page: https://yuanze-lin.me/IllumiCraft_page

arxiv情報

著者 Yuanze Lin,Yi-Wen Chen,Yi-Hsuan Tsai,Ronald Clark,Ming-Hsuan Yang
発行日 2025-06-03 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation はコメントを受け付けていません

TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification

要約

商品属性値同定(PAVI)は、商品プロファイルから属性値を同定するもので、eコマースプラットフォームにおける商品検索、推薦、ビジネス分析を改善するための重要なタスクである。しかし、既存のPAVI手法は、暗黙的な値の推論、分布外(OOD)値の処理、正規化された出力の生成などの重大な課題に直面している。これらの限界に対処するために、我々はPAVIのための最初の検索ベースの手法である、分類学に対応した対照学習検索(TACLR)を導入する。TACLRは、商品プロファイルと候補値をエンベッディングにエンコードし、それらの類似性に基づいて値を検索することにより、PAVIを情報検索タスクとして定式化する。TACLRは、タクソノミーを意識したハードネガティ ブサンプリングによる対照学習を活用し、動的閾値による適応 的推論を採用する。(2)数千のカテゴリ、数万の属性、数百万の値に拡張可能である。(3)高負荷の産業展開において効率的な推論をサポートする。TACLRの有効性と効率性は、独自のデータセットと公開データセットを用いた広範な実験によって検証されている。さらに、TACLRは実世界の電子商取引プラットフォームXianyuに導入され、頻繁に更新される大規模な属性タクソノミを持つ数百万の商品リストを毎日処理することに成功している。我々は、https://github.com/SuYindu/TACLR、再現性と将来の研究を促進するためにコードを公開する。

要約(オリジナル)

Product Attribute Value Identification (PAVI) involves identifying attribute values from product profiles, a key task for improving product search, recommendation, and business analytics on e-commerce platforms. However, existing PAVI methods face critical challenges, such as inferring implicit values, handling out-of-distribution (OOD) values, and producing normalized outputs. To address these limitations, we introduce Taxonomy-Aware Contrastive Learning Retrieval (TACLR), the first retrieval-based method for PAVI. TACLR formulates PAVI as an information retrieval task by encoding product profiles and candidate values into embeddings and retrieving values based on their similarity. It leverages contrastive training with taxonomy-aware hard negative sampling and employs adaptive inference with dynamic thresholds. TACLR offers three key advantages: (1) it effectively handles implicit and OOD values while producing normalized outputs; (2) it scales to thousands of categories, tens of thousands of attributes, and millions of values; and (3) it supports efficient inference for high-load industrial deployment. Extensive experiments on proprietary and public datasets validate the effectiveness and efficiency of TACLR. Further, it has been successfully deployed on the real-world e-commerce platform Xianyu, processing millions of product listings daily with frequently updated, large-scale attribute taxonomies. We release the code to facilitate reproducibility and future research at https://github.com/SuYindu/TACLR.

arxiv情報

著者 Yindu Su,Huike Zou,Lin Sun,Ting Zhang,Haiyang Yang,Liyu Chen,David Lo,Qingheng Zhang,Shuguang Han,Jufeng Chen
発行日 2025-06-03 09:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR | TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification はコメントを受け付けていません

Dynamic Consistent $k$-Center Clustering with Optimal Recourse

要約

任意の計量空間の点と、敵から送られてくる点の更新のシーケンスが与えられたとき、$k$クラスタリング問題の定因数近似を維持するための、更新ごとの最小再コース(すなわち、更新後に中心集合に必要な最小の変更数)は何であろうか?この問題は近年、一貫したクラスタリングという名で注目されている。 Lattanzi and Vassilvitskii [ICLM ’17]やFichtenberger, Lattanzi, Norouzi-Fard, and Svensson [SODA ’21]による先行研究では、$k$-center目標や$k$-median目標を含む$k$-クラスタリング目標を、点挿入のみの条件下で研究している。本論文では、更新が点挿入か点削除のいずれかである完全動的設定における$k$-中心目標を研究する。本論文の前に、{L}k{a}cki, Haeupler, Grunau, Rozhov{n}, and Jayaram [SODA ’24]が、$k$-中心目的に対する決定論的な完全動的定因数近似アルゴ リズムを、更新ごとに最悪$2$のリコースで与えた。 本論文では、$k$中心クラスタリング問題に対して、更新毎に$1$の最悪遡及を持つ決定論的完全動的定因数近似アルゴリズムを開発することで、最適遡及境界を持つことを証明する。さらに、本アルゴリズムは軽いデータ構造に基づいて単純な選択を行うため、洗練された組合せ構造を用いた従来のアルゴリズムよりも、より直接的で高速である。さらに、新しい決定論的減少アルゴリズムと新しい決定論的増加アルゴリズムを開発し、両アルゴリズムとも、更新毎に$1$のワーストケース遡及で$6$近似の$k$中心解を維持する。我々のインクリメンタルアルゴリズムは、Charikar, Chekuri, Feder, and Motwani [STOC ’97]による$8$近似アルゴリズムを改善する。最後に、我々のアルゴリズムは3つとも決定論的であるため、適応的な敵対者に対しても有効である。

要約(オリジナル)

Given points from an arbitrary metric space and a sequence of point updates sent by an adversary, what is the minimum recourse per update (i.e., the minimum number of changes needed to the set of centers after an update), in order to maintain a constant-factor approximation to a $k$-clustering problem? This question has received attention in recent years under the name consistent clustering. Previous works by Lattanzi and Vassilvitskii [ICLM ’17] and Fichtenberger, Lattanzi, Norouzi-Fard, and Svensson [SODA ’21] studied $k$-clustering objectives, including the $k$-center and the $k$-median objectives, under only point insertions. In this paper we study the $k$-center objective in the fully dynamic setting, where the update is either a point insertion or a point deletion. Before our work, {\L}\k{a}cki, Haeupler, Grunau, Rozho\v{n}, and Jayaram [SODA ’24] gave a deterministic fully dynamic constant-factor approximation algorithm for the $k$-center objective with worst-case recourse of $2$ per update. In this work, we prove that the $k$-center clustering problem admits optimal recourse bounds by developing a deterministic fully dynamic constant-factor approximation algorithm with worst-case recourse of $1$ per update. Moreover our algorithm performs simple choices based on light data structures, and thus is arguably more direct and faster than the previous one which uses a sophisticated combinatorial structure. Additionally, we develop a new deterministic decremental algorithm and a new deterministic incremental algorithm, both of which maintain a $6$-approximate $k$-center solution with worst-case recourse of $1$ per update. Our incremental algorithm improves over the $8$-approximation algorithm by Charikar, Chekuri, Feder, and Motwani [STOC ’97]. Finally, we remark that since all three of our algorithms are deterministic, they work against an adaptive adversary.

arxiv情報

著者 Sebastian Forster,Antonis Skarlatos
発行日 2025-06-03 07:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG | Dynamic Consistent $k$-Center Clustering with Optimal Recourse はコメントを受け付けていません

Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video

要約

ロバストなツールと一般に利用可能な事前訓練されたモデルは、言語モデルのメカニズム的解釈可能性における最近の進歩を後押ししてきた。しかし、ビジョンの力学的解釈可能性における同様の進歩は、アクセス可能なフレームワークと事前に訓練された重みの欠如によって妨げられてきた。Prisma(コードベースへのアクセスはこちら:https://github.com/Prisma-Multimodal/ViT-Prisma)は、視覚の力学的解釈可能性研究を加速するために設計されたオープンソースのフレームワークであり、75以上の視覚と映像の変換器、スパースオートエンコーダ(SAE)、トランスコーダ、クロスコーダのトレーニングのサポート、80以上の事前訓練されたSAE重み、活性化キャッシュ、回路解析ツール、可視化ツール、教育リソースにアクセスするための統一されたツールキットを提供する。私たちの分析により、効果的な視覚SAEは言語SAEよりも実質的に低いスパースパターンを示す可能性があることや、SAE再構成によりモデル損失が減少する場合があることなど、驚くべき発見が明らかになりました。Prismaは、ビジョンモデルの内部を理解するための新しい研究の方向性を示すと同時に、この新しい分野への参入障壁を低くする。

要約(オリジナル)

Robust tooling and publicly available pre-trained models have helped drive recent advances in mechanistic interpretability for language models. However, similar progress in vision mechanistic interpretability has been hindered by the lack of accessible frameworks and pre-trained weights. We present Prisma (Access the codebase here: https://github.com/Prisma-Multimodal/ViT-Prisma), an open-source framework designed to accelerate vision mechanistic interpretability research, providing a unified toolkit for accessing 75+ vision and video transformers; support for sparse autoencoder (SAE), transcoder, and crosscoder training; a suite of 80+ pre-trained SAE weights; activation caching, circuit analysis tools, and visualization tools; and educational resources. Our analysis reveals surprising findings, including that effective vision SAEs can exhibit substantially lower sparsity patterns than language SAEs, and that in some instances, SAE reconstructions can decrease model loss. Prisma enables new research directions for understanding vision model internals while lowering barriers to entry in this emerging field.

arxiv情報

著者 Sonia Joseph,Praneet Suresh,Lorenz Hufe,Edward Stevinson,Robert Graham,Yash Vadi,Danilo Bzdok,Sebastian Lapuschkin,Lee Sharkey,Blake Aaron Richards
発行日 2025-06-03 06:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video はコメントを受け付けていません

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

要約

エンド・ツー・エンドの自律走行に関する研究は、知覚、予測、計画といったモジュール化されたタスクを統合した完全に微分可能な設計により、最終的な目標を追求するための最適化を可能にするため、急増している。エンド・ツー・エンドのパラダイムは大きな可能性を秘めているにもかかわらず、既存の手法は、高価なBEV(鳥瞰図)計算、行動の多様性、複雑な実世界シナリオにおける最適でない意思決定など、いくつかの側面に悩まされている。これらの課題に対処するために、我々は、Diff-VLAと呼ばれる、視覚言語モデル(VLM)によって強化された、新しいハイブリッドスパース-高密度拡散ポリシーを提案する。我々は、効率的なマルチモーダル運転行動のためのスパース拡散表現を探求する。さらに、VLMの運転判断の有効性を再考し、エージェント、地図インスタンス、VLM出力間の深い相互作用を通して、軌道生成ガイダンスを改善する。本手法は、困難な実シナリオと反応的な合成シナリオを含むAutonomous Grand Challenge 2025において優れた性能を示した。我々の手法は45.0 PDMSを達成した。

要約(オリジナル)

Research interest in end-to-end autonomous driving has surged owing to its fully differentiable design integrating modular tasks, i.e. perception, prediction and planing, which enables optimization in pursuit of the ultimate goal. Despite the great potential of the end-to-end paradigm, existing methods suffer from several aspects including expensive BEV (bird’s eye view) computation, action diversity, and sub-optimal decision in complex real-world scenarios. To address these challenges, we propose a novel hybrid sparse-dense diffusion policy, empowered by a Vision-Language Model (VLM), called Diff-VLA. We explore the sparse diffusion representation for efficient multi-modal driving behavior. Moreover, we rethink the effectiveness of VLM driving decision and improve the trajectory generation guidance through deep interaction across agent, map instances and VLM output. Our method shows superior performance in Autonomous Grand Challenge 2025 which contains challenging real and reactive synthetic scenarios. Our methods achieves 45.0 PDMS.

arxiv情報

著者 Anqing Jiang,Yu Gao,Zhigang Sun,Yiru Wang,Jijun Wang,Jinghao Chai,Qian Cao,Yuweng Heng,Hao Jiang,Yunda Dong,Zongzheng Zhang,Xianda Guo,Hao Sun,Hao Zhao
発行日 2025-06-03 02:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO | DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving はコメントを受け付けていません

3D Equivariant Visuomotor Policy Learning via Spherical Projection

要約

等量モデルは最近、拡散ポリシーのデータ効率を大きく改善することが示されています。
ただし、この方向を調査した以前の作業は、主にワークスペースに固定された複数のカメラによって生成されたポイントクラウド入力に焦点を当てていました。
このタイプのポイントクラウド入力は、主要な入力モダリティがGOPROのような目の中のRGBカメラである現在の設定と互換性がありません。
このペーパーでは、2D RGBカメラ画像から球体に機能を投影するプロセスAプロセスを拡散ポリシーモデルに組み込むことにより、このギャップを閉じます。
これにより、ポイントクラウドを明示的に再構築することなく、(3)の対称性について推論することができます。
私たちの方法は、パフォーマンスとサンプル効率の両方の点で一貫して強力なベースラインを上回ることを実証するシミュレーションと現実世界の両方で広範な実験を実行します。
私たちの仕事は、単眼RGB入力のみを使用して機能するロボット操作のためのSO(3)equivariantポリシー学習フレームワークです。

要約(オリジナル)

Equivariant models have recently been shown to improve the data efficiency of diffusion policy by a significant margin. However, prior work that explored this direction focused primarily on point cloud inputs generated by multiple cameras fixed in the workspace. This type of point cloud input is not compatible with the now-common setting where the primary input modality is an eye-in-hand RGB camera like a GoPro. This paper closes this gap by incorporating into the diffusion policy model a process that projects features from the 2D RGB camera image onto a sphere. This enables us to reason about symmetries in SO(3) without explicitly reconstructing a point cloud. We perform extensive experiments in both simulation and the real world that demonstrate that our method consistently outperforms strong baselines in terms of both performance and sample efficiency. Our work is the first SO(3)-equivariant policy learning framework for robotic manipulation that works using only monocular RGB inputs.

arxiv情報

著者 Boce Hu,Dian Wang,David Klee,Heng Tian,Xupeng Zhu,Haojie Huang,Robert Platt,Robin Walters
発行日 2025-06-02 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | 3D Equivariant Visuomotor Policy Learning via Spherical Projection はコメントを受け付けていません