Bringing Comparative Cognition To Computers

要約

研究者は、人工知能システムを心理的検査にますますさらされています。
しかし、彼らの認知能力を人間や他の動物と厳密に比較するには、類似点と違いを過小評価していないことを避けなければなりません。
比較アプローチを採用することにより、AI認知研究をより広範な認知科学に統合することができます。

要約(オリジナル)

Researchers are increasingly subjecting artificial intelligence systems to psychological testing. But to rigorously compare their cognitive capacities with humans and other animals, we must avoid both over- and under-stating our similarities and differences. By embracing a comparative approach, we can integrate AI cognition research into the broader cognitive sciences.

arxiv情報

著者 Konstantinos Voudouris,Lucy G. Cheke,Eric Schulz
発行日 2025-03-04 18:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Bringing Comparative Cognition To Computers はコメントを受け付けていません

StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts

要約

この作業では、レイアウト制御拡散モデルと組み合わせた大規模な言語モデルを使用して、芸術舞台生成の最初の包括的なフレームワークであるStagedesignerを紹介します。
ステージシーンの専門的な要件を考えると、ステージシグナーは、熟練したアーティストのワークフローをシミュレートして、没入型の3Dステージシーンを生成します。
具体的には、私たちのアプローチは、入力スクリプトからテーマと空間のキューを抽出するスクリプト分析の3つの主要なモジュールに分けられます。
不可欠な3Dオブジェクトを構築および配置する前景生成。
そして、背景の生成は、物語の雰囲気と整合した調和のとれた背景を生成し、前景と背景要素の間の閉塞を管理することにより空間的一貫性を維持します。
さらに、StagePro-V1データセットを紹介します。これは、このタスクに合わせて調整された、さまざまな歴史的スタイルにまたがる276のユニークなステージシーンを備えた専用のデータセットを紹介します。
最後に、広範なユーザー調査とともに、標準と新たに提案されたメトリックの両方を使用した評価は、Stagedesignerの有効性を示しています。
プロジェクトはhttps://deadsmither5.github.io/2025/01/03/stagesesigner/にあります。

要約(オリジナル)

In this work, we introduce StageDesigner, the first comprehensive framework for artistic stage generation using large language models combined with layout-controlled diffusion models. Given the professional requirements of stage scenography, StageDesigner simulates the workflows of seasoned artists to generate immersive 3D stage scenes. Specifically, our approach is divided into three primary modules: Script Analysis, which extracts thematic and spatial cues from input scripts; Foreground Generation, which constructs and arranges essential 3D objects; and Background Generation, which produces a harmonious background aligned with the narrative atmosphere and maintains spatial coherence by managing occlusions between foreground and background elements. Furthermore, we introduce the StagePro-V1 dataset, a dedicated dataset with 276 unique stage scenes spanning different historical styles and annotated with scripts, images, and detailed 3D layouts, specifically tailored for this task. Finally, evaluations using both standard and newly proposed metrics, along with extensive user studies, demonstrate the effectiveness of StageDesigner. Project can be found at: https://deadsmither5.github.io/2025/01/03/StageDesigner/

arxiv情報

著者 Zhaoxing Gan,Mengtian Li,Ruhua Chen,Zhongxia Ji,Sichen Guo,Huanling Hu,Guangnan Ye,Zuo Hu
発行日 2025-03-04 13:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts はコメントを受け付けていません

Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs

要約

最近のマルチモーダル大手言語モデル(MLLMS)は、マルチモーダルの問い合わせよりも知覚と推論において大きな進歩を示しており、基礎モデルの新しい研究時代を導いています。
ただし、MLLMSのビジョン言語の不整合は、これらのモデルによって生成されたテキスト応答が、特定のテキストイメージ入力と事実上整合していない重要な課題として浮上しています。
ビジョン言語の不整合に対処するための既存の取り組みは、特殊なビジョン言語コネクタの開発や、多様なドメインからの視覚命令の調整を活用することに焦点を当てています。
この論文では、MLLMのコアアーキテクチャを再検討することにより、この問題に基本的でありながら未開の視点からこの問題に取り組みます。
ほとんどのMLLMは、通常、因果関係のメカニズムからなるデコーダーのみのLLMに基づいて構築されており、以前のモダリティ(画像など)の能力が後のモダリティ(例:テキスト)から情報を組み込む能力を制限します。
この問題に対処するために、画像トークンがテキストトークンに参加できるようにするために、因果関係の注意をモダリティマチュアルな注意(MMA)に解き放つ新しいMLLMであるAkiを提案します。
このシンプルでありながら効果的な設計により、AKIは、追加のパラメーターを導入してトレーニング時間を長くすることなく、12のマルチモーダル理解ベンチマーク(平均で7.2%)で優れたパフォーマンスを実現できます。
当社のMMAデザインは一般的なものであり、さまざまなモダリティにわたってアプリケーションを可能にし、多様なマルチモーダルシナリオに対応するためにスケーラブルです。
このコードはhttps://github.com/sony/akiで公開されています。AKI-4Bモデルをリリースして、さまざまな方向にMLLMのさらなる進歩を促進します。

要約(オリジナル)

Recent Multimodal Large Language Models (MLLMs) have demonstrated significant progress in perceiving and reasoning over multimodal inquiries, ushering in a new research era for foundation models. However, vision-language misalignment in MLLMs has emerged as a critical challenge, where the textual responses generated by these models are not factually aligned with the given text-image inputs. Existing efforts to address vision-language misalignment have focused on developing specialized vision-language connectors or leveraging visual instruction tuning from diverse domains. In this paper, we tackle this issue from a fundamental yet unexplored perspective by revisiting the core architecture of MLLMs. Most MLLMs are typically built on decoder-only LLMs consisting of a causal attention mechanism, which limits the ability of earlier modalities (e.g., images) to incorporate information from later modalities (e.g., text). To address this problem, we propose AKI, a novel MLLM that unlocks causal attention into modality-mutual attention (MMA) to enable image tokens to attend to text tokens. This simple yet effective design allows AKI to achieve superior performance in 12 multimodal understanding benchmarks (+7.2% on average) without introducing additional parameters and increasing training time. Our MMA design is intended to be generic, allowing for application across various modalities, and scalable to accommodate diverse multimodal scenarios. The code is publicly available at https://github.com/sony/aki, and we will release our AKI-4B model to encourage further advancements in MLLMs across various directions.

arxiv情報

著者 Wei-Yao Wang,Zhao Wang,Helen Suzuki,Yoshiyuki Kobayashi
発行日 2025-03-04 13:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs はコメントを受け付けていません

Resource-Efficient Affordance Grounding with Complementary Depth and Semantic Prompts

要約

アフォーダンスとは、エージェントが環境から認識し、利用する機能特性を指し、ロボットがアクションを実行するために必要な重要な知覚情報です。
この情報は、本質的に豊かでマルチモーダルです。
既存のマルチモーダルアフォーダンス方法は、主に単純な構造設計、基本的な融合方法、および大規模なモデルパラメーターのために、有用な情報の抽出において制限に直面しているため、実用的な展開のパフォーマンス要件を満たすことが困難です。
これらの問題に対処するために、このホワイトペーパーでは、ビットアライグ画像デプテキストアフォーダンスマッピングフレームワークを提案します。
フレームワークには、バイパスプロンプトモジュール(BPM)とテキスト機能ガイダンス(TFG)の注意選択メカニズムが含まれます。
BPMは、補助モダリティの深さ画像を、プライマリモダリティRGB画像へのプロンプトとして直接統合し、追加のエンコーダーを導入せずにプライマリモダリティエンコーダーに埋め込みます。
これにより、モデルのパラメーターカウントが削減され、機能的な領域のローカリゼーションの精度が効果的に向上します。
TFGメカニズムは、テキスト機能を使用して画像エンコーダ内の注意ヘッドの選択と強化を導き、アフォーダンス特性の理解を改善します。
実験結果は、提案された方法がパブリックAGD20KおよびHICO-IIFデータセットで大幅なパフォーマンスの改善を達成することを示しています。
AGD20Kデータセットでは、現在の最先端の方法と比較して、KLDメトリックで6.0%の改善を達成し、モデルパラメーターを88.8%削減し、実用的なアプリケーション値を実証します。
ソースコードは、https://github.com/dawdse/bit-alignで公開されます。

要約(オリジナル)

Affordance refers to the functional properties that an agent perceives and utilizes from its environment, and is key perceptual information required for robots to perform actions. This information is rich and multimodal in nature. Existing multimodal affordance methods face limitations in extracting useful information, mainly due to simple structural designs, basic fusion methods, and large model parameters, making it difficult to meet the performance requirements for practical deployment. To address these issues, this paper proposes the BiT-Align image-depth-text affordance mapping framework. The framework includes a Bypass Prompt Module (BPM) and a Text Feature Guidance (TFG) attention selection mechanism. BPM integrates the auxiliary modality depth image directly as a prompt to the primary modality RGB image, embedding it into the primary modality encoder without introducing additional encoders. This reduces the model’s parameter count and effectively improves functional region localization accuracy. The TFG mechanism guides the selection and enhancement of attention heads in the image encoder using textual features, improving the understanding of affordance characteristics. Experimental results demonstrate that the proposed method achieves significant performance improvements on public AGD20K and HICO-IIF datasets. On the AGD20K dataset, compared with the current state-of-the-art method, we achieve a 6.0% improvement in the KLD metric, while reducing model parameters by 88.8%, demonstrating practical application values. The source code will be made publicly available at https://github.com/DAWDSE/BiT-Align.

arxiv情報

著者 Yizhou Huang,Fan Yang,Guoliang Zhu,Gen Li,Hao Shi,Yukun Zuo,Wenrui Chen,Zhiyong Li,Kailun Yang
発行日 2025-03-04 13:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Resource-Efficient Affordance Grounding with Complementary Depth and Semantic Prompts はコメントを受け付けていません

ARC-Flow : Articulated, Resolution-Agnostic, Correspondence-Free Matching and Interpolation of 3D Shapes Under Flow Fields

要約

この作業は、2つの3Dの明確な形状とそれらの間の密な対応の自動推定の間の物理的にもっともらしい補間の監視されていない予測のための統一されたフレームワークを提示します。
補間は、神経の通常の微分方程式(ODE)によって支配された滑らかで時変フローフィールドを使用した違いの変換としてモデル化されます。
これにより、体積の保存やソフト制約などの硬い制約に対応しながら、トポロジカルな一貫性と非交差軌道が保証されます。
対応は、パラメーター化が異なる高忠実度の表面に有効な効率的な変動式を使用して回復します。
ソース形状のみに単純なスケルトンを提供することにより、変形場に物理的に動機付けられた制約を課し、対称的なあいまいさを解決します。
これは、スキニングウェイトやスケルトンのターゲットポーズ構成の事前知識に依存せずに達成されます。
定性的および定量的な結果は、標準的なデータセット全体の形状対応タスクと補間タスクの両方において、既存の最先端のアプローチに対する競争的または優れたパフォーマンスを示しています。

要約(オリジナル)

This work presents a unified framework for the unsupervised prediction of physically plausible interpolations between two 3D articulated shapes and the automatic estimation of dense correspondence between them. Interpolation is modelled as a diffeomorphic transformation using a smooth, time-varying flow field governed by Neural Ordinary Differential Equations (ODEs). This ensures topological consistency and non-intersecting trajectories while accommodating hard constraints, such as volume preservation, and soft constraints, \eg physical priors. Correspondence is recovered using an efficient Varifold formulation, that is effective on high-fidelity surfaces with differing parameterisations. By providing a simple skeleton for the source shape only, we impose physically motivated constraints on the deformation field and resolve symmetric ambiguities. This is achieved without relying on skinning weights or any prior knowledge of the skeleton’s target pose configuration. Qualitative and quantitative results demonstrate competitive or superior performance over existing state-of-the-art approaches in both shape correspondence and interpolation tasks across standard datasets.

arxiv情報

著者 Adam Hartshorne,Allen Paul,Tony Shardlow,Neill D. F. Campbell
発行日 2025-03-04 13:28:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARC-Flow : Articulated, Resolution-Agnostic, Correspondence-Free Matching and Interpolation of 3D Shapes Under Flow Fields はコメントを受け付けていません

Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises

要約

テスト時間適応(TTA)は、ソースデータにアクセスせずに、無ー化されたテストデータを使用して分布シフトに取り組むことを目指しています。
マルチモーダルデータのコンテキストでは、複数のモダリティやモダリティの欠落の同時腐敗など、単峰性データよりも複雑なノイズパターンがあります。
さらに、実際のアプリケーションでは、異なる分布シフトによる腐敗は常に混在しています。
既存のTTAメソッドは、急激な分布シフトがソースモデルからの事前知識を破壊し、パフォーマンスの低下につながるため、このようなマルチモーダルシナリオでは常に失敗します。
この目的のために、Multimodal Wild TTAという名前の新しい課題を明らかにします。
この挑戦的な問題に対処するために、2つの新しい戦略を提案します。四分位範囲のスムージングと単峰性の支援と相互情報共有(SUMI)を使用したサンプル識別です。
Sumiは、急激な分布シフトを回避する四分位範囲で適応プロセスを滑らかにします。
次に、SumiはUnimodal機能を完全に利用して、最適化のために豊富なマルチモーダル情報を使用して低エントロピーサンプルを選択します。
さらに、情報の共有が導入され、情報を調整し、矛盾を減らし、異なるモダリティにわたって情報の利用を強化します。
2つのパブリックデータセットでの広範な実験は、マルチモーダルデータの複雑なノイズパターンの下での既存の方法に対する有効性と優位性を示しています。
コードはhttps://github.com/zrguo/sumiで入手できます。

要約(オリジナル)

Test-Time Adaptation (TTA) aims to tackle distribution shifts using unlabeled test data without access to the source data. In the context of multimodal data, there are more complex noise patterns than unimodal data such as simultaneous corruptions for multiple modalities and missing modalities. Besides, in real-world applications, corruptions from different distribution shifts are always mixed. Existing TTA methods always fail in such multimodal scenario because the abrupt distribution shifts will destroy the prior knowledge from the source model, thus leading to performance degradation. To this end, we reveal a new challenge named multimodal wild TTA. To address this challenging problem, we propose two novel strategies: sample identification with interquartile range Smoothing and unimodal assistance, and Mutual information sharing (SuMi). SuMi smooths the adaptation process by interquartile range which avoids the abrupt distribution shifts. Then, SuMi fully utilizes the unimodal features to select low-entropy samples with rich multimodal information for optimization. Furthermore, mutual information sharing is introduced to align the information, reduce the discrepancies and enhance the information utilization across different modalities. Extensive experiments on two public datasets show the effectiveness and superiority over existing methods under the complex noise patterns in multimodal data. Code is available at https://github.com/zrguo/SuMi.

arxiv情報

著者 Zirun Guo,Tao Jin
発行日 2025-03-04 13:36:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises はコメントを受け付けていません

ZAPBench: A Benchmark for Whole-Brain Activity Prediction in Zebrafish

要約

データ駆動型のベンチマークは、気象や構造生物学を含む主要な科学モデリングドメインの大きな進歩をもたらしました。
ここでは、ゼブラフィッシュアクティビティ予測ベンチマーク(Zapbench)を導入して、脊椎動物全体の脳全体で細胞分解の神経活動を予測する問題の進捗を測定します。
ベンチマークは、幼虫のゼブラフィッシュ脳の70,000を超えるニューロンの4Dライトシート顕微鏡記録を含む新しいデータセットに基づいており、これらのデータの運動安定化およびボクセルレベルの細胞セグメンテーションは、さまざまな予測方法の開発を促進します。
時系列と体積ビデオモデリングのアプローチの選択からの初期結果は、ナイーブなベースライン方法よりも優れたパフォーマンスを実現しますが、さらに改善するためのショールームも実現します。
活動記録で使用される特定の脳も、シナプスレベルの解剖学的マッピングを受けており、詳細な構造情報を予測方法に将来の統合を可能にします。

要約(オリジナル)

Data-driven benchmarks have led to significant progress in key scientific modeling domains including weather and structural biology. Here, we introduce the Zebrafish Activity Prediction Benchmark (ZAPBench) to measure progress on the problem of predicting cellular-resolution neural activity throughout an entire vertebrate brain. The benchmark is based on a novel dataset containing 4d light-sheet microscopy recordings of over 70,000 neurons in a larval zebrafish brain, along with motion stabilized and voxel-level cell segmentations of these data that facilitate development of a variety of forecasting methods. Initial results from a selection of time series and volumetric video modeling approaches achieve better performance than naive baseline methods, but also show room for further improvement. The specific brain used in the activity recording is also undergoing synaptic-level anatomical mapping, which will enable future integration of detailed structural information into forecasting methods.

arxiv情報

著者 Jan-Matthis Lueckmann,Alexander Immer,Alex Bo-Yuan Chen,Peter H. Li,Mariela D. Petkova,Nirmala A. Iyer,Luuk Willem Hesselink,Aparna Dev,Gudrun Ihrke,Woohyun Park,Alyson Petruncio,Aubrey Weigel,Wyatt Korff,Florian Engert,Jeff W. Lichtman,Misha B. Ahrens,Michał Januszewski,Viren Jain
発行日 2025-03-04 13:38:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC | ZAPBench: A Benchmark for Whole-Brain Activity Prediction in Zebrafish はコメントを受け付けていません

XFMamba: Cross-Fusion Mamba for Multi-View Medical Image Classification

要約

シングルビューの医療画像分類と比較して、複数のビューを使用すると、ビュー間の相関関係を活用しながら、各ビューの相補性を説明できるため、予測精度を大幅に向上させることができます。
既存のマルチビューアプローチでは、通常、単純な特徴融合戦略と組み合わせた個別の畳み込みまたは変圧器の枝を採用しています。
ただし、これらのアプローチは、本質的なクロスビューの相関関係を不注意に無視し、最適ではない分類パフォーマンスにつながり、限られた受容フィールド(CNNS)または二次計算の複雑さ(トランス)を伴う課題に苦しんでいます。
状態空間シーケンスモデルに触発され、マルチビューの医療画像分類の課題に対処するための純粋なマンバベースのクロスフュージョンアーキテクチャであるXFMAMBAを提案します。
XFMAMBAは、シングルビュー機能の学習とそのクロスビューの格差の学習を促進し、新しい2段階の融合戦略を導入しています。
このメカニズムは、各ビューで空間的に長距離依存関係をキャプチャし、ビュー間のシームレスな情報転送を強化します。
3つのパブリックデータセットの結果、Mura、Chexpert、およびDDSMは、多様なマルチビューの医療画像分類タスクにわたるアプローチの有効性を示しています。
コードはhttps://github.com/xzheng0427/xfmambaで入手できます。

要約(オリジナル)

Compared to single view medical image classification, using multiple views can significantly enhance predictive accuracy as it can account for the complementarity of each view while leveraging correlations between views. Existing multi-view approaches typically employ separate convolutional or transformer branches combined with simplistic feature fusion strategies. However, these approaches inadvertently disregard essential cross-view correlations, leading to suboptimal classification performance, and suffer from challenges with limited receptive field (CNNs) or quadratic computational complexity (transformers). Inspired by state space sequence models, we propose XFMamba, a pure Mamba-based cross-fusion architecture to address the challenge of multi-view medical image classification. XFMamba introduces a novel two-stage fusion strategy, facilitating the learning of single-view features and their cross-view disparity. This mechanism captures spatially long-range dependencies in each view while enhancing seamless information transfer between views. Results on three public datasets, MURA, CheXpert and DDSM, illustrate the effectiveness of our approach across diverse multi-view medical image classification tasks, showing that it outperforms existing convolution-based and transformer-based multi-view methods. Code is available at https://github.com/XZheng0427/XFMamba.

arxiv情報

著者 Xiaoyu Zheng,Xu Chen,Shaogang Gong,Xavier Griffin,Greg Slabaugh
発行日 2025-03-04 13:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | XFMamba: Cross-Fusion Mamba for Multi-View Medical Image Classification はコメントを受け付けていません

WalnutData: A UAV Remote Sensing Dataset of Green Walnuts and Model Evaluation

要約

UAVテクノロジーは徐々に成熟しており、スマートな農業と正確な監視に対する非常に強力なサポートを提供できます。
現在、農業コンピュータービジョンの分野には、緑のクルミに関連するデータセットはありません。
したがって、農業コンピュータービジョンの分野でアルゴリズム設計を促進するために、UAVを使用して、8つのクルミサンプルプロットからリモートセンシングデータを収集しました。
緑色のクルミはさまざまな照明条件と閉塞の対象となることを考慮して、ターゲット特徴のより高い粒度であるWalnutdataを備えた大規模なデータセットを構築しました。
このデータセットには、合計30,240枚の画像と706,208のインスタンスが含まれており、4つのターゲットカテゴリがあります。前頭光と閉鎖されていない(a1)、逆照度と閉鎖されていない(a2)、正面光と閉塞(B1)によって照らされ、バックリットとオクレッド(B2)が照らされています。
その後、Walnutdataの多くの主流アルゴリズムを評価し、これらの評価結果をベースライン標準として使用しました。
データセットとすべての評価結果は、https://github.com/1wuming/walnutdataで取得できます。

要約(オリジナル)

The UAV technology is gradually maturing and can provide extremely powerful support for smart agriculture and precise monitoring. Currently, there is no dataset related to green walnuts in the field of agricultural computer vision. Thus, in order to promote the algorithm design in the field of agricultural computer vision, we used UAV to collect remote-sensing data from 8 walnut sample plots. Considering that green walnuts are subject to various lighting conditions and occlusion, we constructed a large-scale dataset with a higher-granularity of target features – WalnutData. This dataset contains a total of 30,240 images and 706,208 instances, and there are 4 target categories: being illuminated by frontal light and unoccluded (A1), being backlit and unoccluded (A2), being illuminated by frontal light and occluded (B1), and being backlit and occluded (B2). Subsequently, we evaluated many mainstream algorithms on WalnutData and used these evaluation results as the baseline standard. The dataset and all evaluation results can be obtained at https://github.com/1wuming/WalnutData.

arxiv情報

著者 Mingjie Wu,Chenggui Yang,Huihua Wang,Chen Xue,Yibo Wang,Haoyu Wang,Yansong Wang,Can Peng,Yuqi Han,Ruoyu Li,Lijun Yun,Zaiqing Chen,Yuelong Xia
発行日 2025-03-04 14:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | WalnutData: A UAV Remote Sensing Dataset of Green Walnuts and Model Evaluation はコメントを受け付けていません

R2Det: Exploring Relaxed Rotation Equivariance in 2D object detection

要約

Group Equivariant Convolution(GCONV)は、モデルがデータの根本的な対称性を探求し、パフォーマンスを改善できるようにします。
ただし、現実世界のシナリオは、対称グループの非重要な作用を特徴とする物理的順列によって引き起こされる理想的な対称システムから逸脱することが多く、対称性破壊として知られる現象に影響を与える非対称性をもたらします。
従来のGCONVベースの方法は、グループ空間内の剛性のある運用ルールによって制約されています。これは、データが限られたグループ変換後も厳密に対称的なままであると仮定します。
この制限により、対称性の破壊的および非剛性変換に適応することが困難になります。
これに動機付けられて、私たちは主に共通のシナリオである回転対称性に焦点を当てています。
厳密な回転等等層グループ$ \ mathbf {c} _n $内で厳密なグループ変換をリラックスさせることにより、リラックスした回転等等等級グループ$ \ mathbf {r} _n $を再定義し、$ 4n $ $のパラメーターを最小限に抑えて、新しいリラックスしたローテーションエクイバリアントGCONV(R2GCONV)を導入します。
R2GCONVに基づいて、2Dオブジェクト検出のためにリラックスした回転エクイバリアントネットワーク(R2NET)をバックボーンとして提案し、リラックスした回転等式オブジェクト検出器(R2DET)を開発します。
実験結果は、自然画像分類における提案されたR2GCONVの有効性を示し、R2DETは、一般化能力と堅牢性を改善した2Dオブジェクト検出で優れたパフォーマンスを達成します。
このコードは、\ texttt {https://github.com/wuer5/r2det}で使用できます。

要約(オリジナル)

Group Equivariant Convolution (GConv) empowers models to explore underlying symmetry in data, improving performance. However, real-world scenarios often deviate from ideal symmetric systems caused by physical permutation, characterized by non-trivial actions of a symmetry group, resulting in asymmetries that affect the outputs, a phenomenon known as Symmetry Breaking. Traditional GConv-based methods are constrained by rigid operational rules within group space, assuming data remains strictly symmetry after limited group transformations. This limitation makes it difficult to adapt to Symmetry-Breaking and non-rigid transformations. Motivated by this, we mainly focus on a common scenario: Rotational Symmetry-Breaking. By relaxing strict group transformations within Strict Rotation-Equivariant group $\mathbf{C}_n$, we redefine a Relaxed Rotation-Equivariant group $\mathbf{R}_n$ and introduce a novel Relaxed Rotation-Equivariant GConv (R2GConv) with only a minimal increase of $4n$ parameters compared to GConv. Based on R2GConv, we propose a Relaxed Rotation-Equivariant Network (R2Net) as the backbone and develop a Relaxed Rotation-Equivariant Object Detector (R2Det) for 2D object detection. Experimental results demonstrate the effectiveness of the proposed R2GConv in natural image classification, and R2Det achieves excellent performance in 2D object detection with improved generalization capabilities and robustness. The code is available in \texttt{https://github.com/wuer5/r2det}.

arxiv情報

著者 Zhiqiang Wu,Yingjie Liu,Hanlin Dong,Xuan Tang,Jian Yang,Bo Jin,Mingsong Chen,Xian Wei
発行日 2025-03-04 14:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | R2Det: Exploring Relaxed Rotation Equivariance in 2D object detection はコメントを受け付けていません