IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments

要約

Intphys 2は、深い学習モデルの直感的な物理的理解を評価するために設計されたビデオベンチマークです。
元のIntphysベンチマークに基づいて、Intphys 2は、巨視的なオブジェクトに関連する4つのコア原則に焦点を当てています:永続性、不変性、時空間の連続性、および堅牢性。
これらの状態は、幼少期に現れる直感的な身体的理解の研究に触発されています。
Intphys 2は、予想フレームワークの違反に基づいて、包括的なテストスイートを提供します。これは、制御された多様な仮想環境内で可能なイベントと不可能なイベントを区別するようにモデルに挑戦します。
ベンチマークに加えて、いくつかの最先端のモデルのパフォーマンス評価を提供します。
我々の調査結果は、これらのモデルは基本的な視覚的理解を示しているが、複雑なシーンで4つの原則にわたって直感的な物理学を把握し、ほとんどのモデルが偶然のレベル(50%)でパフォーマンスを発揮し、人間のパフォーマンスとはまったく対照的に、ほぼ完璧な精度を達成することを示していることを示しています。
これは、現在のモデルと人間のような直感的な物理学の理解との間のギャップを強調し、モデルアーキテクチャとトレーニング方法論の進歩の必要性を強調しています。

要約(オリジナル)

We present IntPhys 2, a video benchmark designed to evaluate the intuitive physics understanding of deep learning models. Building on the original IntPhys benchmark, IntPhys 2 focuses on four core principles related to macroscopic objects: Permanence, Immutability, Spatio-Temporal Continuity, and Solidity. These conditions are inspired by research into intuitive physical understanding emerging during early childhood. IntPhys 2 offers a comprehensive suite of tests, based on the violation of expectation framework, that challenge models to differentiate between possible and impossible events within controlled and diverse virtual environments. Alongside the benchmark, we provide performance evaluations of several state-of-the-art models. Our findings indicate that while these models demonstrate basic visual understanding, they face significant challenges in grasping intuitive physics across the four principles in complex scenes, with most models performing at chance levels (50%), in stark contrast to human performance, which achieves near-perfect accuracy. This underscores the gap between current models and human-like intuitive physics understanding, highlighting the need for advancements in model architectures and training methodologies.

arxiv情報

著者 Florian Bordes,Quentin Garrido,Justine T Kao,Adina Williams,Michael Rabbat,Emmanuel Dupoux
発行日 2025-06-11 15:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments はコメントを受け付けていません

ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models

要約

画像のシーケンス上の推論は、マルチモーダルの大手言語モデル(MLLMS)にとって課題のままです。
最近のモデルは、トレーニング前にマルチイメージデータを組み込んでいますが、シーケンシャル構造を認識するのに苦労しており、多くの場合画像を独立して扱います。
このワークでは、視覚シーケンスをマルチターン会話としてモデル化することにより、画像データ上のシーケンシャルな推論機能を備えたMLLMを強化するフレームワークであるImageChainを紹介します。
ImageChainでは、画像は対応するテキストの説明とインターリーブして、時間的依存関係と物語の進行を明示的にキャプチャする制御された対話を形成します。
私たちの方法は、次のシーンの説明のタスクを最適化します。ここで、モデルは、前の視覚的およびテキストのキューに基づいて、今後のシーンのコンテキスト認識の説明を生成します。
私たちのアプローチは、次のシーンの説明タスクのパフォーマンスを向上させることを実証します – SIMRateで3.7%から19%への平均改善を達成します。
さらに、ImageChainは、コミックからロボット工学までのアプリケーションで、堅牢なゼロショットのドメイン外のパフォーマンスを実現します。
広範な実験では、マルチモーダルのマルチターン会話デザインでの命令調整が、静的画像の理解と一時的に認識される推論のギャップを埋めるための鍵であることを検証します。

要約(オリジナル)

Reasoning over sequences of images remains a challenge for multimodal large language models (MLLMs). While recent models incorporate multi-image data during pre-training, they still struggle to recognize sequential structures, often treating images independently. This work introduces ImageChain, a framework that enhances MLLMs with sequential reasoning capabilities over image data by modeling visual sequences as a multi-turn conversation. In ImageChain, images are interleaved with corresponding textual descriptions to form a controlled dialogue that explicitly captures temporal dependencies and narrative progression. Our method optimizes for the task of next-scene description, where the model generates a context-aware description of an upcoming scene based on preceding visual and textual cues. We demonstrate that our approach improves performance on the next-scene description task — achieving an average improvement from 3.7% to 19% in SimRate, a metric that quantifies semantic similarity to human-annotated ground truths. Moreover, ImageChain achieves robust zero-shot out-of-domain performance in applications ranging from comics to robotics. Extensive experiments validate that instruction-tuning in a multimodal, multi-turn conversation design is key to bridging the gap between static image understanding and temporally-aware reasoning.

arxiv情報

著者 Danae Sánchez Villegas,Ingo Ziegler,Desmond Elliott
発行日 2025-06-11 15:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models はコメントを受け付けていません

ContentV: Efficient Training of Video Generation Models with Limited Compute

要約

ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます効率的なトレーニングレシピを需要しています。
このレポートでは、256 x 64GBのニューラル加工ユニット(NPU)をわずか4週間トレーニングした後、最先端のパフォーマンス(VBenchで85.14)を達成する8BパラメーターテキストからビデオへのcontentVを提示します。
ContentVは、テキストプロンプトからの複数の解像度と期間にわたって多様で高品質のビデオを生成し、3つの重要なイノベーションによって有効になります。(1)ビデオ生成の事前訓練を受けた画像生成モデルの再利用を最大化するミニマリストアーキテクチャ。
(2)効率を向上させるためのフローマッチングを活用する体系的なマルチステージトレーニング戦略。
(3)追加の人間の注釈を必要とせずに生成品質を向上させる人間のフィードバックフレームワークによる費用対効果の高い強化学習。
すべてのコードとモデルは、https://contentv.github.ioで入手できます。

要約(オリジナル)

Recent advances in video generation demand increasingly efficient training recipes to mitigate escalating computational costs. In this report, we present ContentV, an 8B-parameter text-to-video model that achieves state-of-the-art performance (85.14 on VBench) after training on 256 x 64GB Neural Processing Units (NPUs) for merely four weeks. ContentV generates diverse, high-quality videos across multiple resolutions and durations from text prompts, enabled by three key innovations: (1) A minimalist architecture that maximizes reuse of pre-trained image generation models for video generation; (2) A systematic multi-stage training strategy leveraging flow matching for enhanced efficiency; and (3) A cost-effective reinforcement learning with human feedback framework that improves generation quality without requiring additional human annotations. All the code and models are available at: https://contentv.github.io.

arxiv情報

著者 Wenfeng Lin,Renjie Chen,Boyuan Liu,Shiyue Yan,Ruoyu Feng,Jiangchuan Wei,Yichen Zhang,Yimeng Zhou,Chao Feng,Jiao Ran,Qi Wu,Zuotao Liu,Mingyu Guo
発行日 2025-06-11 15:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ContentV: Efficient Training of Video Generation Models with Limited Compute はコメントを受け付けていません

Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation

要約

セマンティックセグメンテーション(DGSS)におけるオープンボキャブラリーセマンティックセグメンテーション(OVSS)とドメイン一般化は、オープンボキャブラリードメイン一般化セマンティックセグメンテーション(OV-DGSS)を動機付ける微妙な相補性を強調しています。
OV-DGSSは、目に見えないドメイン全体で堅牢性を維持しながら、目に見えないカテゴリのピクセルレベルマスクを生成することを目的としています。
OVSSとDGSSの強度を初めて統合するOV-DGSSの新しいシングルステージフレームワークであるVireoを紹介します。
Vireoは、冷凍Visual Foundationモデル(VFM)に基づいて構築され、深さVFMを介してシーンジオメトリを組み込んで、ドメインに不変の構造的特徴を抽出します。
ドメインシフト下の視覚モダリティとテキストモダリティのギャップを埋めるために、3つの重要なコンポーネントを提案します。(1)幾何学的特徴を言語キューに合わせ、VFMエンコーダー表現を徐々に改良するジオテキストプロンプトを提案します。
(2)より速い収束とより強いテキストの影響のために勾配流を強化するための粗いマスク事前埋め込み(CMPE)。
(3)堅牢な予測のために洗練された構造的および意味的特徴を融合するドメインオープンと音量のベクター埋め込みヘッド(DOV-veh)。
これらのコンポーネントの包括的な評価は、私たちの設計の有効性を示しています。
提案されているVireoは、最先端のパフォーマンスを達成し、既存の方法をドメイン一般化とオープンボキャブラリー認識の両方で大きなマージンで上回り、多様で動的な環境で堅牢な視覚的理解のための統一されたスケーラブルなソリューションを提供します。
コードはhttps://github.com/anonymouse-9c53tp182bvz/vireoで入手できます。

要約(オリジナル)

Open-Vocabulary semantic segmentation (OVSS) and domain generalization in semantic segmentation (DGSS) highlight a subtle complementarity that motivates Open-Vocabulary Domain-Generalized Semantic Segmentation (OV-DGSS). OV-DGSS aims to generate pixel-level masks for unseen categories while maintaining robustness across unseen domains, a critical capability for real-world scenarios such as autonomous driving in adverse conditions. We introduce Vireo, a novel single-stage framework for OV-DGSS that unifies the strengths of OVSS and DGSS for the first time. Vireo builds upon the frozen Visual Foundation Models (VFMs) and incorporates scene geometry via Depth VFMs to extract domain-invariant structural features. To bridge the gap between visual and textual modalities under domain shift, we propose three key components: (1) GeoText Prompts, which align geometric features with language cues and progressively refine VFM encoder representations; (2) Coarse Mask Prior Embedding (CMPE) for enhancing gradient flow for faster convergence and stronger textual influence; and (3) the Domain-Open-Vocabulary Vector Embedding Head (DOV-VEH), which fuses refined structural and semantic features for robust prediction. Comprehensive evaluation on these components demonstrates the effectiveness of our designs. Our proposed Vireo achieves the state-of-the-art performance and surpasses existing methods by a large margin in both domain generalization and open-vocabulary recognition, offering a unified and scalable solution for robust visual understanding in diverse and dynamic environments. Code is available at https://github.com/anonymouse-9c53tp182bvz/Vireo.

arxiv情報

著者 Siyu Chen,Ting Han,Chengzheng Fu,Changshe Zhang,Chaolei Wang,Jinhe Su,Guorong Cai,Meiliu Wu
発行日 2025-06-11 15:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation はコメントを受け付けていません

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

要約

3Dオブジェクト検出のための低エネルギー消費は、自律運転などの分野での幅広い用途でのエネルギー消費が増加するため、重要な研究分野です。
低電力消費特性を備えたスパイクニューラルネットワーク(SNN)は、この研究に新しいソリューションを提供できます。
したがって、SNNSを単眼3Dオブジェクトの検出に適用し、このペーパーでSpikesmokeアーキテクチャを提案します。これは、低電力単眼3Dオブジェクト検出の新しい試みです。
私たち全員が知っているように、SNNの離散信号は情報損失を生成し、人工ニューラルネットワーク(ANN)と比較して特徴発現能力を制限します。この問題に対処するために、生物学的ニューロンシナプスのフィルタリングメカニズムに触発され、クロススケールゲートコーディングメカニズム(CSGC)を追加することができます。
計算とトレーニングの速度を上げると、スパイクコンピューティングパラダイムと可能な限り最高の検出パフォーマンスを維持できる新しい軽量残基ブロックを提示します。
3Dオブジェクト検出下でのベースラインスパイクスモークと比較して、CSGCを使用した提案されたスパイクショークは、それぞれ0.7 IOU界面下場でAP | R11によるKitti自律運転データセットで11.78(+2.82、Easy)、10.69(+3.2、中程度)、および10.48(+3.17、ハード)を達成できます。
Spikesmokeの結果は、煙の結果と比較してエネルギー消費を大幅に削減できることに注意することが重要です。
たとえば、ハードカテゴリでエネルギー消費量を72.2%削減できますが、検出性能はわずか4%減少します。
Spikesmoke-L(軽量)は、煙と比較してパラメーターの量をさらに3倍減らし、10倍減らすことができます。

要約(オリジナル)

Low energy consumption for 3D object detection is an important research area because of the increasing energy consumption with their wide application in fields such as autonomous driving. The spiking neural networks (SNNs) with low-power consumption characteristics can provide a novel solution for this research. Therefore, we apply SNNs to monocular 3D object detection and propose the SpikeSMOKE architecture in this paper, which is a new attempt for low-power monocular 3D object detection. As we all know, discrete signals of SNNs will generate information loss and limit their feature expression ability compared with the artificial neural networks (ANNs).In order to address this issue, inspired by the filtering mechanism of biological neuronal synapses, we propose a cross-scale gated coding mechanism(CSGC), which can enhance feature representation by combining cross-scale fusion of attentional methods and gated filtering mechanisms.In addition, to reduce the computation and increase the speed of training, we present a novel light-weight residual block that can maintain spiking computing paradigm and the highest possible detection performance. Compared to the baseline SpikeSMOKE under the 3D Object Detection, the proposed SpikeSMOKE with CSGC can achieve 11.78 (+2.82, Easy), 10.69 (+3.2, Moderate), and 10.48 (+3.17, Hard) on the KITTI autonomous driving dataset by AP|R11 at 0.7 IoU threshold, respectively. It is important to note that the results of SpikeSMOKE can significantly reduce energy consumption compared to the results on SMOKE. For example,the energy consumption can be reduced by 72.2% on the hard category, while the detection performance is reduced by only 4%. SpikeSMOKE-L (lightweight) can further reduce the amount of parameters by 3 times and computation by 10 times compared to SMOKE.

arxiv情報

著者 Xuemei Chen,Huamin Wang,Hangchi Shen,Shukai Duan,Shiping Wen,Tingwen Huang
発行日 2025-06-11 15:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding はコメントを受け付けていません

3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation

要約

ビジョン言語モデル(VLM)は、多様な視覚的および言語的タスクで顕著なパフォーマンスを示していますが、3D空間構造の理解において根本的に限られたままです。
私たちは、アーキテクチャを変更せずに、人間に触発された幾何学的キューを前処理したVLMに注入する軽量で注釈のない微調整フレームワークである幾何学的蒸留を提案します。
(1)スパース対応、(2)相対深さの関係、および(3)既製の3Dファンデーションモデル(例:Mast3R、VGGT)からの密なコスト量を蒸留することにより、私たちの方法は、自然な画像テキスト入力と互換性がある間、ジオメトリを認識する表現を形作ります。
3Dビジョン言語の推論と3D認識ベンチマークに関する広範な評価を通じて、私たちの方法は一貫して以前のアプローチを上回り、計算コストが大幅に低い3D空間推論を達成しました。
私たちの作品は、3D理解で2Dトレーニングを受けたVLMSをブリッジするスケーラブルで効率的なパスを示し、空間的に接地されたマルチモーダルタスクでより広く使用されています。

要約(オリジナル)

Vision-Language Models (VLMs) have shown remarkable performance on diverse visual and linguistic tasks, yet they remain fundamentally limited in their understanding of 3D spatial structures. We propose Geometric Distillation, a lightweight, annotation-free fine-tuning framework that injects human-inspired geometric cues into pretrained VLMs without modifying their architecture. By distilling (1) sparse correspondences, (2) relative depth relations, and (3) dense cost volumes from off-the-shelf 3D foundation models (e.g., MASt3R, VGGT), our method shapes representations to be geometry-aware while remaining compatible with natural image-text inputs. Through extensive evaluations on 3D vision-language reasoning and 3D perception benchmarks, our method consistently outperforms prior approaches, achieving improved 3D spatial reasoning with significantly lower computational cost. Our work demonstrates a scalable and efficient path to bridge 2D-trained VLMs with 3D understanding, opening up wider use in spatially grounded multimodal tasks.

arxiv情報

著者 Seonho Lee,Jiho Choi,Inha Kang,Jiwook Kim,Junsung Park,Hyunjung Shim
発行日 2025-06-11 15:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation はコメントを受け付けていません

Traveling Waves Integrate Spatial Information Through Time

要約

神経活動の移動波は脳で広く観察されていますが、それらの正確な計算機能は不明のままです。
顕著な仮説の1つは、神経集団間の空間情報の移動と統合を可能にするということです。
ただし、このような統合処理を実行するために、移動波がどのように活用されるかを調査した計算モデルはほとんどありません。
有名な「ドラムの形を聞くことができますか?」からインスピレーションを引き出します。
問題 – 波のダイナミクスの通常のモードが幾何学的情報をエンコードする方法を強調する – 同様の原則を人工ニューラルネットワークで活用できるかどうかを調査します。
具体的には、視覚刺激に応じて隠された状態で移動波を生成することを学ぶ通性再発性ニューラルネットワークを導入し、空間的統合を可能にします。
その後、これらの波のような活性化シーケンスを視覚表現自体として扱うことにより、グローバルな空間コンテキストを必要とするタスク上のローカルフィードフォワードネットワークを上回る強力な表現空間を取得します。
特に、移動波は局所的に接続されたニューロンの受容フィールドを効果的に拡大し、長距離エンコードと情報の通信をサポートすることが観察されます。
このメカニズムを装備したモデルは、グローバルな統合を要求する視覚セマンティックセグメンテーションタスクを解決し、ローカルフィードフォワードモデルを大幅に上回り、パラメーターが少ない非ローカルU-NETモデルに匹敵することを実証します。
人工ネットワークにおける旅行波ベースのコミュニケーションと視覚的表現への最初のステップとして、我々の調査結果は、波動部門が効率とトレーニングの安定性の利点を提供すると同時に、モデルを神経活動の生物学的記録に接続するための新しいフレームワークを提供する可能性があることを示唆しています。

要約(オリジナル)

Traveling waves of neural activity are widely observed in the brain, but their precise computational function remains unclear. One prominent hypothesis is that they enable the transfer and integration of spatial information across neural populations. However, few computational models have explored how traveling waves might be harnessed to perform such integrative processing. Drawing inspiration from the famous ‘Can one hear the shape of a drum?’ problem — which highlights how normal modes of wave dynamics encode geometric information — we investigate whether similar principles can be leveraged in artificial neural networks. Specifically, we introduce convolutional recurrent neural networks that learn to produce traveling waves in their hidden states in response to visual stimuli, enabling spatial integration. By then treating these wave-like activation sequences as visual representations themselves, we obtain a powerful representational space that outperforms local feed-forward networks on tasks requiring global spatial context. In particular, we observe that traveling waves effectively expand the receptive field of locally connected neurons, supporting long-range encoding and communication of information. We demonstrate that models equipped with this mechanism solve visual semantic segmentation tasks demanding global integration, significantly outperforming local feed-forward models and rivaling non-local U-Net models with fewer parameters. As a first step toward traveling-wave-based communication and visual representation in artificial networks, our findings suggest wave-dynamics may provide efficiency and training stability benefits, while simultaneously offering a new framework for connecting models to biological recordings of neural activity.

arxiv情報

著者 Mozes Jacobs,Roberto C. Budzinski,Lyle Muller,Demba Ba,T. Anderson Keller
発行日 2025-06-11 15:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Traveling Waves Integrate Spatial Information Through Time はコメントを受け付けていません

The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge

要約

一般化可能な新規ビューシンシシス(NVS)の問題を検討します。これは、シーンごとの最適化なしに、まばらまたは装備されていない2D画像から光エアリスティックな新規ビューを生成することを目的としています。
このタスクは、不完全であいまいな2D観測から3D構造を推測する必要があるため、根本的に挑戦的なままです。
初期のアプローチは、通常、建築3D誘導バイアス(たとえば、ネットワーク設計にnerfや3DGSなどの明示的な3D表現を埋め込む)や、入力ビューとターゲットビューの両方のグラウンドトゥルースカメラポーズなど、強力な3D知識に依存しています。
最近の努力は、3D誘導バイアスまたは既知のカメラのポーズの入力ビューの依存を減らすことを求めていますが、3D知識の役割とその使用を回避する必要性に関する重要な質問は未調査のままです。
この作業では、3Dの知識に関する体系的な分析を実施し、重要な傾向を明らかにします。3D知識を必要とする方法のパフォーマンスは、データスケールとしてより多くの加速を行い、最終的には3D知識主導型のカウンターパートと同等のパフォーマンスを達成し、大規模データの時代に3D知識の依存を減らすことの重要性の増加を強調します。
この傾向によって動機付けられ、その後に、3D誘導バイアスを最小限に抑え、入力ビューとターゲットビューの両方に依存をもたらす新しいNVSフレームワークを提案します。
この3D知識を排除することにより、私たちの方法はデータのスケーリングを完全に活用し、トレーニング中に3Dの帰納的バイアスまたはポーズ注釈なしで、スパース2D画像から直接暗黙の3D認識を学習します。
広範な実験は、私たちのモデルがフォトリアリスティックで3D結合的な新規見解を生成し、ポーズ入力に依存する方法で同等のパフォーマンスを達成し、それによってデータ中心のパラダイムの実現可能性と有効性を検証することを示しています。
プロジェクトページ:https://pku-vcl-geometry.github.io/less3depend/。

要約(オリジナル)

We consider the problem of generalizable novel view synthesis (NVS), which aims to generate photorealistic novel views from sparse or even unposed 2D images without per-scene optimization. This task remains fundamentally challenging, as it requires inferring 3D structure from incomplete and ambiguous 2D observations. Early approaches typically rely on strong 3D knowledge, including architectural 3D inductive biases (e.g., embedding explicit 3D representations, such as NeRF or 3DGS, into network design) and ground-truth camera poses for both input and target views. While recent efforts have sought to reduce the 3D inductive bias or the dependence on known camera poses of input views, critical questions regarding the role of 3D knowledge and the necessity of circumventing its use remain under-explored. In this work, we conduct a systematic analysis on the 3D knowledge and uncover a critical trend: the performance of methods that requires less 3D knowledge accelerates more as data scales, eventually achieving performance on par with their 3D knowledge-driven counterparts, which highlights the increasing importance of reducing dependence on 3D knowledge in the era of large-scale data. Motivated by and following this trend, we propose a novel NVS framework that minimizes 3D inductive bias and pose dependence for both input and target views. By eliminating this 3D knowledge, our method fully leverages data scaling and learns implicit 3D awareness directly from sparse 2D images, without any 3D inductive bias or pose annotation during training. Extensive experiments demonstrate that our model generates photorealistic and 3D-consistent novel views, achieving even comparable performance with methods that rely on posed inputs, thereby validating the feasibility and effectiveness of our data-centric paradigm. Project page: https://pku-vcl-geometry.github.io/Less3Depend/ .

arxiv情報

著者 Haoru Wang,Kai Ye,Yangyan Li,Wenzheng Chen,Baoquan Chen
発行日 2025-06-11 15:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge はコメントを受け付けていません

EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks

要約

変換と不変で等しくなる自己監視表現を学ぶことは、従来の視覚分類タスクを超えて進歩するために重要です。
ただし、多くの方法は、カプセルネットワークなどのアーキテクチャの選択が解釈可能なポーズアウェア表現の学習に本質的に優れているという証拠にもかかわらず、予測因子アーキテクチャに依存して等量をエンコードしています。
これを探索するために、等量を実施するための専門的な予測因子の必要性を排除するポーズ認識のセルフスーパービジョンへのカプセルベースのアプローチであるEquiCaps(Equivariant Capsule Network)を紹介します。
代わりに、カプセルの固有のポーズアウェアネス機能を活用して、ポーズ推定タスクのパフォーマンスを改善します。
私たちの仮定にさらに挑戦するために、3Dオブジェクトレンダリングベンチマークデータセットの拡張である3DieBench-Tを導入することにより、不変性と等量のより徹底的な評価を可能にするために、多幾何変換を介してタスクの複雑さを高めます。
経験的な結果は、Equicapsが回転予測で以前の最先端の等量的方法を上回り、3Diebench Rotation Prodiction Benchmarkで監視されたレベルの$ r^2 $ of 0.78を達成し、それぞれ0.05および0.04 $ r^2 $のSIEとCapsieを改善することを示しています。
さらに、非カプセルベースの等量アプローチとは対照的に、equicapsは、幾何学的変換の組み合わせの下で堅牢な等縁パフォーマンスを維持し、その一般化能力と予測なしのカプセルアーキテクチャの約束を強調します。

要約(オリジナル)

Learning self-supervised representations that are invariant and equivariant to transformations is crucial for advancing beyond traditional visual classification tasks. However, many methods rely on predictor architectures to encode equivariance, despite evidence that architectural choices, such as capsule networks, inherently excel at learning interpretable pose-aware representations. To explore this, we introduce EquiCaps (Equivariant Capsule Network), a capsule-based approach to pose-aware self-supervision that eliminates the need for a specialised predictor for enforcing equivariance. Instead, we leverage the intrinsic pose-awareness capabilities of capsules to improve performance in pose estimation tasks. To further challenge our assumptions, we increase task complexity via multi-geometric transformations to enable a more thorough evaluation of invariance and equivariance by introducing 3DIEBench-T, an extension of a 3D object-rendering benchmark dataset. Empirical results demonstrate that EquiCaps outperforms prior state-of-the-art equivariant methods on rotation prediction, achieving a supervised-level $R^2$ of 0.78 on the 3DIEBench rotation prediction benchmark and improving upon SIE and CapsIE by 0.05 and 0.04 $R^2$, respectively. Moreover, in contrast to non-capsule-based equivariant approaches, EquiCaps maintains robust equivariant performance under combined geometric transformations, underscoring its generalisation capabilities and the promise of predictor-free capsule architectures.

arxiv情報

著者 Athinoulla Konstantinou,Georgios Leontidis,Mamatha Thota,Aiden Durrant
発行日 2025-06-11 16:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks はコメントを受け付けていません

CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects

要約

Tiny Object Detection(TOD)は、特徴のピラミッドネットワークの基本的な欠陥を明らかにします。高レベルの機能(P5-P6)は、標準のラベル割り当てプロトコルの下でゼロポジティブアンカーを頻繁に受け取り、損失計算から除外されているため、セマンティック表現を訓練しません。
これにより、二重の欠陥が生成されます。(1)伸びた高レベルの機能は、グラデーションの更新なしのセマンティックデッドエンドになり、(2)低レベルの機能には、堅牢な分類のための重要なセマンティックコンテキストがありません。
無駄な高レベルのセマンティクスを体系的に低レベルの特徴強化に変換するE-FPN-BSを提案します。
これらの問題に対処するために、マルチスケール機能の強化と適応的最適化を統合する新しいアーキテクチャであるE-FPN-BSを提案します。
まず、コンテキストエンハンスメントモジュール(CEM)は、デュアルブランチ処理を採用して、高レベルの機能を整列および圧縮して、効果的なグローバルローカル融合を行います。
第二に、フォアグラウンドバックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間的ゲーティングマスクを生成します。
オブジェクトスケール全体の勾配の不均衡に対処するために、さらにスケール認識勾配平衡を介して損失の寄与を自動的に変調する動的勾配バランスの損失(DCLOSS)をさらに提案します。
複数のベンチマークデータセットにわたる広範な実験は、私たちのアプローチの優れたパフォーマンスと一般化能力を示しています。

要約(オリジナル)

Tiny object detection (TOD) reveals a fundamental flaw in feature pyramid networks: high-level features (P5-P6) frequently receive zero positive anchors under standard label assignment protocols, leaving their semantic representations untrained due to exclusion from loss computation. This creates dual deficiencies: (1) Stranded high-level features become semantic dead-ends without gradient updates, while (2) low-level features lack essential semantic context for robust classification. We propose E-FPN-BS that systematically converts wasted high-level semantics into low-level feature enhancements. To address these issues, we propose E-FPN-BS, a novel architecture integrating multi-scale feature enhancement and adaptive optimization. First, our Context Enhancement Module(CEM) employs dual-branch processing to align and compress high-level features for effective global-local fusion. Second, the Foreground-Background Separation Module (FBSM) generates spatial gating masks that dynamically amplify discriminative regions. To address gradient imbalance across object scales, we further propose a Dynamic Gradient-Balanced Loss (DCLoss) that automatically modulates loss contributions via scale-aware gradient equilibrium. Extensive experiments across multiple benchmark datasets demonstrate the outstanding performance and generalization ability of our approach.

arxiv情報

著者 Tao Liu,Zhenchao Cui
発行日 2025-06-11 16:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects はコメントを受け付けていません