Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping

要約

根底にある幾何学的原始として、3D指向のボックスを使用してローカリゼーションとマッピングの両方が可能なオブジェクト中心のフレームワークの出力としてシーンレベルの3Dオブジェクト検出を再検討します。
既存の3Dオブジェクト検出アプローチはグローバルに動作し、メトリックカメラポーズの先験的存在に暗黙的に依存していますが、私たちの方法は、動きからの部屋(RFM)は、未配置の画像のコレクションで動作します。
構造からの標準の2Dキーポイントベースのマッチャーを、画像由来の3Dボックスに基づいてオブジェクト中心のマッチャーに置き換えることにより、メトリックカメラのポーズ、オブジェクトトラックを推定し、最後にグローバルなセマンティック3Dオブジェクトマップを作成します。
アプリオリのポーズが利用可能な場合、個々の観測に対するグローバル3Dボックスの最適化を通じて、マップの品質を大幅に改善できます。
RFMは強力なローカリゼーションパフォーマンスを示し、その後、これらのグローバルな方法がポイントクラウドまたは高密度のボリュームを介したオーバーパラメーター化に依存しているにもかかわらず、CA-1MおよびScannet ++の主要なポイントベースおよびマルチビュー3Dオブジェクト検出方法よりも高品質のマップを生成します。
モーションからの部屋は、キュービーを完全なシーンに拡張するだけでなく、シーン内のオブジェクトの数に比例した本質的にまばらなローカリゼーションとパラメトリックマッピングを可能にする一般的なオブジェクト中心の表現を実現します。

要約(オリジナル)

We revisit scene-level 3D object detection as the output of an object-centric framework capable of both localization and mapping using 3D oriented boxes as the underlying geometric primitive. While existing 3D object detection approaches operate globally and implicitly rely on the a priori existence of metric camera poses, our method, Rooms from Motion (RfM) operates on a collection of un-posed images. By replacing the standard 2D keypoint-based matcher of structure-from-motion with an object-centric matcher based on image-derived 3D boxes, we estimate metric camera poses, object tracks, and finally produce a global, semantic 3D object map. When a priori pose is available, we can significantly improve map quality through optimization of global 3D boxes against individual observations. RfM shows strong localization performance and subsequently produces maps of higher quality than leading point-based and multi-view 3D object detection methods on CA-1M and ScanNet++, despite these global methods relying on overparameterization through point clouds or dense volumes. Rooms from Motion achieves a general, object-centric representation which not only extends the work of Cubify Anything to full scenes but also allows for inherently sparse localization and parametric mapping proportional to the number of objects in a scene.

arxiv情報

著者 Justin Lazarow,Kai Kang,Afshin Dehghan
発行日 2025-05-29 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping はコメントを受け付けていません

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

要約

LORAモデルを使用したマルチコンセプト画像編集の最初のフレームワークであるLorashopを紹介します。
Lorashopは、フラックススタイルの拡散トランス内の特徴相互作用パターンに関する重要な観察に基づいています:概念固有のトランス機能は、除去プロセスの初期に空間的にコヒーレントな領域をアクティブにします。
この観察結果を活用して、以前のフォワードパスで各概念の解き伸びた潜在マスクを導き出し、パーソナライズされる概念を制限する領域内でのみ対応するロラの重みをブレンドします。
結果の編集は、グローバルなコンテキスト、照明、細かい詳細を保持しながら、複数のサブジェクトまたはスタイルを元のシーンにシームレスに統合します。
私たちの実験は、Lorashopがベースラインと比較してより良いアイデンティティ保存を提供することを示しています。
再訓練と外部の制約を排除することにより、Lorashopはパーソナライズされた拡散モデルを実用的な「Photoshop-with-loras」ツールに変え、構成の視覚的なストーリーテリングと迅速な創造的な反復の新しい道を開きます。

要約(オリジナル)

We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs’ tool and opens new avenues for compositional visual storytelling and rapid creative iteration.

arxiv情報

著者 Yusuf Dalva,Hidir Yesiltepe,Pinar Yanardag
発行日 2025-05-29 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers はコメントを受け付けていません

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

要約

自律運転のビジョン言語アクション(VLA)モデルは、主にターゲットベンチマークが不足しているため、構造化されていないコーナーケースのシナリオでの可能性を示しています。
これに対処するために、即興VLAを紹介します。
私たちの中核的な貢献は、即興VLAデータセットです。80,000を超える綿密にキュレーションされたビデオクリップは、8つのオープンソースの大規模データセットから供給された2mを超えるソースクリップから蒸留されています。
このデータセットは、4つの挑戦的な非構造化されたカテゴリと、豊かで計画指向の質問アノテーションとアクションの軌跡を特徴とする私たちの新しい分類法に基づいて構築されています。
重要なことに、実験は、データセットで訓練されたVLAが確立されたベンチマークでかなりのパフォーマンスの向上を達成することを示しています。これは、閉ループのニューロランキャップスコアと衝突率を向上させ、オープンループヌーセンの軌道予測における最先端のL2精度に近いことを示しています。
さらに、当社のQ&Aスイートは効果的な診断として機能し、認識、予測、および計画の明確なVLMの改善を明らかにしています。
コード、データ、モデルはhttps://github.com/ahydchh/impromptu-vlaで入手できます。

要約(オリジナル)

Vision-Language-Action (VLA) models for autonomous driving show promise but falter in unstructured corner case scenarios, largely due to a scarcity of targeted benchmarks. To address this, we introduce Impromptu VLA. Our core contribution is the Impromptu VLA Dataset: over 80,000 meticulously curated video clips, distilled from over 2M source clips sourced from 8 open-source large-scale datasets. This dataset is built upon our novel taxonomy of four challenging unstructured categories and features rich, planning-oriented question-answering annotations and action trajectories. Crucially, experiments demonstrate that VLAs trained with our dataset achieve substantial performance gains on established benchmarks–improving closed-loop NeuroNCAP scores and collision rates, and reaching near state-of-the-art L2 accuracy in open-loop nuScenes trajectory prediction. Furthermore, our Q&A suite serves as an effective diagnostic, revealing clear VLM improvements in perception, prediction, and planning. Our code, data and models are available at https://github.com/ahydchh/Impromptu-VLA.

arxiv情報

著者 Haohan Chi,Huan-ang Gao,Ziming Liu,Jianing Liu,Chenyu Liu,Jinwei Li,Kaisen Yang,Yangcheng Yu,Zeda Wang,Wenyi Li,Leichen Wang,Xingtao Hu,Hao Sun,Hang Zhao,Hao Zhao
発行日 2025-05-29 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models はコメントを受け付けていません

Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint

要約

レバスパズル、画像を介して言語をエンコードする視覚的な謎、空間的配置、および象徴的な代替は、現在のビジョン言語モデル(VLM)に独自の課題をもたらします。
従来の画像のキャプションや質問への回答タスクとは異なり、Rebus Solvingにはマルチモーダルの抽象化、象徴的な推論、文化的、音声的、言語的駄洒落の把握が必要です。
この論文では、現代のVLMが、単純な絵文字の代替物から空間的に依存するキュー(「Head ‘over’ Heels」)に至るまで、多様な英語のレバスパズルの手で生成され注釈付きのベンチマークを構築することにより、レバスパズルを解釈および解釈する能力を調査します。
さまざまなVLMがどのように機能するかを分析し、私たちの発見は、VLMが単純な視覚的手がかりを解読する際にいくつかの驚くべき能力を示す一方で、抽象的な推論、横思考、視覚的メタファーの理解を必要とするタスクと著しく苦労していることを明らかにしています。

要約(オリジナル)

Rebus puzzles, visual riddles that encode language through imagery, spatial arrangement, and symbolic substitution, pose a unique challenge to current vision-language models (VLMs). Unlike traditional image captioning or question answering tasks, rebus solving requires multi-modal abstraction, symbolic reasoning, and a grasp of cultural, phonetic and linguistic puns. In this paper, we investigate the capacity of contemporary VLMs to interpret and solve rebus puzzles by constructing a hand-generated and annotated benchmark of diverse English-language rebus puzzles, ranging from simple pictographic substitutions to spatially-dependent cues (‘head’ over ‘heels’). We analyze how different VLMs perform, and our findings reveal that while VLMs exhibit some surprising capabilities in decoding simple visual clues, they struggle significantly with tasks requiring abstract reasoning, lateral thinking, and understanding visual metaphors.

arxiv情報

著者 Heekyung Lee,Jiaxin Ge,Tsung-Han Wu,Minwoo Kang,Trevor Darrell,David M. Chan
発行日 2025-05-29 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Puzzled by Puzzles: When Vision-Language Models Can’t Take a Hint はコメントを受け付けていません

Diffusion Classifiers Understand Compositionality, but Conditions Apply

要約

視覚的なシーンを理解することは、人間の知性の基本です。
識別モデルにはコンピュータービジョンが大幅に進歩していますが、しばしば構成の理解に苦労しています。
対照的に、最近の生成テキストから画像間拡散モデルは、複雑なシーンの合成に優れており、固有の構成能力を示唆しています。
これに基づいて、ゼロショット拡散分類器が識別タスクの拡散モデルを再利用するために提案されています。
以前の研究は、識別的な組成シナリオで有望な結果を提供しましたが、これらの結果は、少数のベンチマークと、モデルが成功する条件の比較的浅い分析により、予備的なままです。
これに対処するために、幅広い組成タスクで拡散分類器の識別能力の包括的な研究を提示します。
具体的には、私たちの研究では、10のデータセットと30を超えるタスクにまたがる3つの拡散モデル(SD 1.5、2.0、および初めて3-m)をカバーしています。
さらに、ターゲットデータセットドメインがそれぞれのパフォーマンスで果たす役割に光を当てました。
ドメイン効果を分離するために、拡散モデル自体によって作成された画像で構成される新しい診断ベンチマークセルフベンチを紹介します。
最後に、タイムステップの重み付けの重要性を調査し、特にSD3-Mのドメインギャップとタイムステップ感度の関係を明らかにします。
要約すると、拡散分類器は構成性を理解しますが、条件が適用されます!
コードとデータセットは、https://github.com/eugene6923/diffusion-classifiers-compositionalityで入手できます。

要約(オリジナル)

Understanding visual scenes is fundamental to human intelligence. While discriminative models have significantly advanced computer vision, they often struggle with compositional understanding. In contrast, recent generative text-to-image diffusion models excel at synthesizing complex scenes, suggesting inherent compositional capabilities. Building on this, zero-shot diffusion classifiers have been proposed to repurpose diffusion models for discriminative tasks. While prior work offered promising results in discriminative compositional scenarios, these results remain preliminary due to a small number of benchmarks and a relatively shallow analysis of conditions under which the models succeed. To address this, we present a comprehensive study of the discriminative capabilities of diffusion classifiers on a wide range of compositional tasks. Specifically, our study covers three diffusion models (SD 1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks. Further, we shed light on the role that target dataset domains play in respective performance; to isolate the domain effects, we introduce a new diagnostic benchmark Self-Bench comprised of images created by diffusion models themselves. Finally, we explore the importance of timestep weighting and uncover a relationship between domain gap and timestep sensitivity, particularly for SD3-m. To sum up, diffusion classifiers understand compositionality, but conditions apply! Code and dataset are available at https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.

arxiv情報

著者 Yujin Jeong,Arnas Uselis,Seong Joon Oh,Anna Rohrbach
発行日 2025-05-29 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Classifiers Understand Compositionality, but Conditions Apply はコメントを受け付けていません

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

要約

スケッチリサーチは時間とともに集合的に成熟しているため、AT-Massの商業化への適応はすぐに現れます。
写真のすでに成熟した研究の努力にもかかわらず、スケッチデータ用に特別に設計された効率的な推論に関する研究はありません。
この論文では、写真用に設計された既存の最先端の効率的な光重量モデルがスケッチでは機能しないことを最初に示します。
次に、写真効率の高いネットワークでプラグアンドプレイで動作する2つのスケッチ固有のコンポーネントを提案し、スケッチデータの作業に適応します。
具体的には、即時の商業的価値で最も認識されているスケッチ問題として、デモンストレーターとして、きめ細かいスケッチベースの画像検索(FG-SBIR)を選択しました。
技術的に言えば、最初にクロスモーダルの知識蒸留ネットワークを提案して、既存の写真効率の高いネットワークをスケッチと互換性のあるものに転送します。これにより、フロップとモデルパラメーターの数がそれぞれ97.96%と84.89%を削減します。
次に、スケッチの抽象的な特性を活用して、抽象化レベルに動的に調整するRLベースのキャンバスセレクターを導入し、フロップの数を3分の2に削減します。
最終結果は、完全なネットワークと比較した場合、フルプスの99.37%(40.18gから0.254g)の全体的な減少です。一方、精度(33.03%対32.77%)を保持します。最終的に、最高の写真の対応物よりも少ないフロップを示すまばらなスケッチデータの効率的なネットワークを作成します。

要約(オリジナル)

As sketch research has collectively matured over time, its adaptation for at-mass commercialisation emerges on the immediate horizon. Despite an already mature research endeavour for photos, there is no research on the efficient inference specifically designed for sketch data. In this paper, we first demonstrate existing state-of-the-art efficient light-weight models designed for photos do not work on sketches. We then propose two sketch-specific components which work in a plug-n-play manner on any photo efficient network to adapt them to work on sketch data. We specifically chose fine-grained sketch-based image retrieval (FG-SBIR) as a demonstrator as the most recognised sketch problem with immediate commercial value. Technically speaking, we first propose a cross-modal knowledge distillation network to transfer existing photo efficient networks to be compatible with sketch, which brings down number of FLOPs and model parameters by 97.96% percent and 84.89% respectively. We then exploit the abstract trait of sketch to introduce a RL-based canvas selector that dynamically adjusts to the abstraction level which further cuts down number of FLOPs by two thirds. The end result is an overall reduction of 99.37% of FLOPs (from 40.18G to 0.254G) when compared with a full network, while retaining the accuracy (33.03% vs 32.77%) — finally making an efficient network for the sparse sketch data that exhibit even fewer FLOPs than the best photo counterpart.

arxiv情報

著者 Aneeshan Sain,Subhajit Maity,Pinaki Nath Chowdhury,Subhadeep Koley,Ayan Kumar Bhunia,Yi-Zhe Song
発行日 2025-05-29 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch はコメントを受け付けていません

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

要約

大規模なビジョン言語モデル(VLM)の迅速な進歩により、純粋なビジョンベースのGUIエージェントの開発が推進されており、ユーザーの指示を自律的に満たすために、グラフィカルユーザーインターフェイス(GUI)を知覚および操作できるようになりました。
ただし、既存のアプローチは通常、オフライン学習フレームワークを採用しています。これは、2つのコア制限に直面しています。(1)要素の接地とアクション監督のための高品質のマニュアル注釈に大きく依存し、(2)動的およびインタラクティブな環境への適応性が限られています。
これらの制限に対処するために、ゼロコストでGUIエージェントトレーニングを自動化するためのスケーラブルなオンライン学習フレームワークであるZeroguiを提案します。
具体的には、Zeroguiは(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標、(ii)手作りの評価機能なしでタスクの成功を評価するためのVLMベースの自動報酬推定、および(iii)GUI環境と継続的に対話し、学習する2段階のオンライン強化学習を統合します。
2つの高度なGUIエージェント(UI-TARとAguvis)の実験は、ZeroguiがOsworld環境とAndroidLab環境全体でパフォーマンスを大幅に向上させることを示しています。
このコードは、https://github.com/opengvlab/zeroguiで入手できます。

要約(オリジナル)

The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-vision-based GUI Agents, capable of perceiving and operating Graphical User Interfaces (GUI) to autonomously fulfill user instructions. However, existing approaches usually adopt an offline learning framework, which faces two core limitations: (1) heavy reliance on high-quality manual annotations for element grounding and action supervision, and (2) limited adaptability to dynamic and interactive environments. To address these limitations, we propose ZeroGUI, a scalable, online learning framework for automating GUI Agent training at Zero human cost. Specifically, ZeroGUI integrates (i) VLM-based automatic task generation to produce diverse training goals from the current environment state, (ii) VLM-based automatic reward estimation to assess task success without hand-crafted evaluation functions, and (iii) two-stage online reinforcement learning to continuously interact with and learn from GUI environments. Experiments on two advanced GUI Agents (UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance across OSWorld and AndroidLab environments. The code is available at https://github.com/OpenGVLab/ZeroGUI.

arxiv情報

著者 Chenyu Yang,Shiqian Su,Shi Liu,Xuan Dong,Yue Yu,Weijie Su,Xuehui Wang,Zhaoyang Liu,Jinguo Zhu,Hao Li,Wenhai Wang,Yu Qiao,Xizhou Zhu,Jifeng Dai
発行日 2025-05-29 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | ZeroGUI: Automating Online GUI Learning at Zero Human Cost はコメントを受け付けていません

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

要約

空間インテリジェンスは、複雑な物理的世界で動作するマルチモーダル大手言語モデル(MLLM)に不可欠です。
ただし、既存のベンチマークは、単一イメージの関係のみをプローブしているため、実際の展開が要求するというマルチイメージの空間的推論を評価できません。
マルチイメージの空間インテリジェンス専用のVQAベンチマークであるMMSIベンチを紹介します。
6人の3Dビジョンの研究者は、300時間以上を費やして、120,000を超える画像から1,000の挑戦的で明確な複数選択の質問を綿密に作成しました。
広範な実験を実施し、34のオープンソースと独自のMLLMを徹底的に評価し、広いギャップを観察します。最も強力なオープンソースモデルは約30%の精度を達成し、OpenaiのO3推論モデルは40%に達し、人間は97%を獲得します。
これらの結果は、MMSIベンチの挑戦的な性質と、将来の研究のための実質的なヘッドルームを強調しています。
注釈付き推論プロセスを活用すると、(1)接地エラー、(2)オーバーラップマッチングおよびシーン再構築エラー、(3)状況変容推論エラー、および(4)スパティアルロジック視点エラーを含む4つの支配的な障害モードを診断する自動エラー分析パイプラインも提供します。
プロジェクトページ:https://runsenxu.com/projects/mmsi_bench。

要約(オリジナル)

Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the complex physical world. Existing benchmarks, however, probe only single-image relations and thus fail to assess the multi-image spatial reasoning that real-world deployments demand. We introduce MMSI-Bench, a VQA benchmark dedicated to multi-image spatial intelligence. Six 3D-vision researchers spent more than 300 hours meticulously crafting 1,000 challenging, unambiguous multiple-choice questions from over 120,000 images, each paired with carefully designed distractors and a step-by-step reasoning process. We conduct extensive experiments and thoroughly evaluate 34 open-source and proprietary MLLMs, observing a wide gap: the strongest open-source model attains roughly 30% accuracy and OpenAI’s o3 reasoning model reaches 40%, while humans score 97%. These results underscore the challenging nature of MMSI-Bench and the substantial headroom for future research. Leveraging the annotated reasoning processes, we also provide an automated error analysis pipeline that diagnoses four dominant failure modes, including (1) grounding errors, (2) overlap-matching and scene-reconstruction errors, (3) situation-transformation reasoning errors, and (4) spatial-logic errors, offering valuable insights for advancing multi-image spatial intelligence. Project page: https://runsenxu.com/projects/MMSI_Bench .

arxiv情報

著者 Sihan Yang,Runsen Xu,Yiman Xie,Sizhe Yang,Mo Li,Jingli Lin,Chenming Zhu,Xiaochen Chen,Haodong Duan,Xiangyu Yue,Dahua Lin,Tai Wang,Jiangmiao Pang
発行日 2025-05-29 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence はコメントを受け付けていません

Weight Space Representation Learning on Diverse NeRF Architectures

要約

ニューラル放射輝度フィールド(NERF)は、神経ネットワークの重みに形状と外観情報をエンコードすることにより、3Dオブジェクトとシーンを表すための画期的なパラダイムとして浮上しています。
最近の研究では、これらの重みは、深い学習タスクに対処するように設計されたフレームワークの入力として使用できることが実証されています。
ただし、このようなフレームワークでは、特定の事前定義されたアーキテクチャを順守するためにnerfsが必要です。
このホワイトペーパーでは、多様なアーキテクチャを備えたナルフを処理し、トレーニング時に見られないアーキテクチャに関する推論を実行できる最初のフレームワークを紹介します。
これを達成し、監視されていない表現学習フレームワーク内でグラフメタネットワークをトレーニングし、対照的な目的がアーキテクチャに依存しない潜在スペースを取得するのに役立つことを示します。
3つのファミリー(MLP、TRIプレーン、および初めてハッシュテーブル)に属する13のNERFアーキテクチャにわたって実施された実験では、私たちのアプローチは、複数のアーキテクチャを含む分類および検索タスクにおける堅牢なパフォーマンスを実証します。

要約(オリジナル)

Neural Radiance Fields (NeRFs) have emerged as a groundbreaking paradigm for representing 3D objects and scenes by encoding shape and appearance information into the weights of a neural network. Recent studies have demonstrated that these weights can be used as input for frameworks designed to address deep learning tasks; however, such frameworks require NeRFs to adhere to a specific, predefined architecture. In this paper, we introduce the first framework capable of processing NeRFs with diverse architectures and performing inference on architectures unseen at training time. We achieve this by training a Graph Meta-Network within an unsupervised representation learning framework, and show that a contrastive objective is conducive to obtaining an architecture-agnostic latent space. In experiments conducted across 13 NeRF architectures belonging to three families (MLPs, tri-planes, and, for the first time, hash tables), our approach demonstrates robust performance in classification and retrieval tasks involving multiple architectures, even unseen at training time, while also exceeding the results of existing frameworks limited to single architectures.

arxiv情報

著者 Francesco Ballerini,Pierluigi Zama Ramirez,Samuele Salti,Luigi Di Stefano
発行日 2025-05-29 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Weight Space Representation Learning on Diverse NeRF Architectures はコメントを受け付けていません

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩は、視覚言語のタスクにおいて顕著な能力を実証していますが、正確な推論に正確な視覚的焦点が必要な視覚中心のシナリオと格闘していることがよくあります。
この論文では、新しい視覚的注意の接地メカニズムでこれらの制限に対処するためにアーガスを紹介します。
私たちのアプローチは、視覚的なチェーンのシグナルとしてオブジェクト中心の接地を採用しており、マルチモーダル推論タスク中に、より効果的な目標調整された視覚的注意を可能にします。
多様なベンチマークでの評価は、アーガスがマルチモーダル推論タスクとオブジェクト接地タスクの参照の両方に優れていることを示しています。
広範な分析では、アーガスのさまざまな設計の選択肢をさらに検証し、MLLMにおける明示的な言語誘導視覚領域の関与領域の関与の有効性を明らかにし、視覚中心の観点からマルチモーダルインテリジェンスを進めることの重要性を強調しています。
プロジェクトページ:https://yunzeman.github.io/argus/

要約(オリジナル)

Recent advances in multimodal large language models (MLLMs) have demonstrated remarkable capabilities in vision-language tasks, yet they often struggle with vision-centric scenarios where precise visual focus is needed for accurate reasoning. In this paper, we introduce Argus to address these limitations with a new visual attention grounding mechanism. Our approach employs object-centric grounding as visual chain-of-thought signals, enabling more effective goal-conditioned visual attention during multimodal reasoning tasks. Evaluations on diverse benchmarks demonstrate that Argus excels in both multimodal reasoning tasks and referring object grounding tasks. Extensive analysis further validates various design choices of Argus, and reveals the effectiveness of explicit language-guided visual region-of-interest engagement in MLLMs, highlighting the importance of advancing multimodal intelligence from a visual-centric perspective. Project page: https://yunzeman.github.io/argus/

arxiv情報

著者 Yunze Man,De-An Huang,Guilin Liu,Shiwei Sheng,Shilong Liu,Liang-Yan Gui,Jan Kautz,Yu-Xiong Wang,Zhiding Yu
発行日 2025-05-29 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought はコメントを受け付けていません