RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning

要約

チェーンオブテーブ(COT)の推論は、複雑なタスクの大規模な言語モデル(LLM)を強化するのに効果的であることが証明されており、その根本的なメカニズムの研究に拍車をかけています。
ただし、実際のアプリケーションには2つの主要な課題が残っています。(1)COT機能の測定可能な境界を評価および最適化するための定量的メトリックの欠如と実用的なガイドライン、および(2)マルチモーダルの知覚などの測定不可能なCOT機能の境界を評価する方法がないこと。
これらのギャップに対処するために、推論境界フレームワーク++(RBF ++)を紹介します。
最初の課題に取り組むために、推論境界(RB)をCOTパフォーマンスの最大限界として定義します。
また、RBSの組み合わせ法を提案し、定量分析を可能にし、さまざまなCOTタスクで実用的なガイダンスを提供します。
2番目の課題、特にマルチモーダルシナリオでは、測定不可能なRBをシナリオ固有の定数に置き換える絶え間ない仮定を導入します。
さらに、測定不可能なRBSを2つのサブバウンダリに分割する推論境界分割メカニズムを提案し、測定不可能なドメインの知識とマルチモーダル知覚機能の両方の定量化と最適化を促進します。
13のタスクにわたる38のモデルを含む広範な実験は、クロスモーダル設定でのフレームワークの実現可能性を検証します。
さらに、10のCOT戦略を評価し、2つの補完的な観点から最適化と減衰に関する洞察を提供し、LLM推論でRBを測定するための評価ベンチマークを拡張します。
この作業が、LLMSのRBSの理解と最適化戦略を進めることを願っています。
コードとデータは、https://github.com/lightchen233/Reasoning-boundaryで入手できます。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has proven effective in enhancing large language models (LLMs) on complex tasks, spurring research into its underlying mechanisms. However, two primary challenges remain for real-world applications: (1) the lack of quantitative metrics and actionable guidelines for evaluating and optimizing measurable boundaries of CoT capability, and (2) the absence of methods to assess boundaries of unmeasurable CoT capability, such as multimodal perception. To address these gaps, we introduce the Reasoning Boundary Framework++ (RBF++). To tackle the first challenge, we define the reasoning boundary (RB) as the maximum limit of CoT performance. We also propose a combination law for RBs, enabling quantitative analysis and offering actionable guidance across various CoT tasks. For the second challenge, particularly in multimodal scenarios, we introduce a constant assumption, which replaces unmeasurable RBs with scenario-specific constants. Additionally, we propose the reasoning boundary division mechanism, which divides unmeasurable RBs into two sub-boundaries, facilitating the quantification and optimization of both unmeasurable domain knowledge and multimodal perception capabilities. Extensive experiments involving 38 models across 13 tasks validate the feasibility of our framework in cross-modal settings. Additionally, we evaluate 10 CoT strategies, offer insights into optimization and decay from two complementary perspectives, and expand evaluation benchmarks for measuring RBs in LLM reasoning. We hope this work advances the understanding of RBs and optimization strategies in LLMs. Code and data are available at https://github.com/LightChen233/reasoning-boundary.

arxiv情報

著者 Qiguang Chen,Libo Qin,Jinhao Liu,Yue Liao,Jiaqi Wang,Jingxuan Zhou,Wanxiang Che
発行日 2025-05-19 16:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning はコメントを受け付けていません

GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval

要約

少数のショットクロスモーダル検索は、限られたトレーニングサンプルを備えたクロスモーダル表現の学習に焦点を当てており、モデルが推論中に目に見えないクラスを処理できるようにします。
トレーニングとテストの両方のデータが同じクラス分布を共有すると仮定する従来のクロスモーダル検索タスクとは異なり、少ないショット検索には、モダリティ全体のまばらな表現を持つデータが含まれます。
既存の方法は、少数のショットクロスモーダルデータのマルチピーク分布を適切にモデル化できないことが多く、潜在的なセマンティックスペースに2つの主要なバイアスが生じます。まばらなサンプルがクラス内の多様性をキャプチャできないモーダルバイアスと、画像とテキストの分布がセマンティックギャップを促進する間の誤った格付けが存在するモーダルバイアスです。
これらのバイアスは、検索の精度を妨げます。
これらの問題に対処するために、少数のショットクロスモーダル検索のための新しい方法であるGCRDPを提案します。
このアプローチは、ガウス混合モデル(GMM)を使用してデータの複雑なマルチピーク分布を効果的にキャプチャし、包括的な特徴モデリングのための多陽性サンプル対照学習メカニズムを組み込んでいます。
さらに、画像とテキストの特徴分布の相対的な距離を制限するクロスモーダルセマンティックアラインメントの新しい戦略を導入し、それによってクロスモーダル表現の精度を改善します。
4つのベンチマークデータセットでの広範な実験を通じてアプローチを検証し、6つの最先端の方法よりも優れたパフォーマンスを実証します。

要約(オリジナル)

Few-shot cross-modal retrieval focuses on learning cross-modal representations with limited training samples, enabling the model to handle unseen classes during inference. Unlike traditional cross-modal retrieval tasks, which assume that both training and testing data share the same class distribution, few-shot retrieval involves data with sparse representations across modalities. Existing methods often fail to adequately model the multi-peak distribution of few-shot cross-modal data, resulting in two main biases in the latent semantic space: intra-modal bias, where sparse samples fail to capture intra-class diversity, and inter-modal bias, where misalignments between image and text distributions exacerbate the semantic gap. These biases hinder retrieval accuracy. To address these issues, we propose a novel method, GCRDP, for few-shot cross-modal retrieval. This approach effectively captures the complex multi-peak distribution of data using a Gaussian Mixture Model (GMM) and incorporates a multi-positive sample contrastive learning mechanism for comprehensive feature modeling. Additionally, we introduce a new strategy for cross-modal semantic alignment, which constrains the relative distances between image and text feature distributions, thereby improving the accuracy of cross-modal representations. We validate our approach through extensive experiments on four benchmark datasets, demonstrating superior performance over six state-of-the-art methods.

arxiv情報

著者 Chengsong Sun,Weiping Li,Xiang Li,Yuankun Liu,Lianlei Shan
発行日 2025-05-19 16:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval はコメントを受け付けていません

eStonefish-scenes: A synthetically generated dataset for underwater event-based optical flow prediction tasks

要約

イベントベースのビジョンとスパイクニューラルネットワーク(SNNS)の使用の組み合わせは、特に視覚的な臭気や障害物の回避などのタスクでロボット工学に大きな影響を与えると予想されます。
通常、無人航空機(UAV)でキャプチャされる光学フロー予測のための既存の現実世界のイベントベースのデータセットは、貴重な洞察を提供しますが、多様性、スケーラビリティが限られており、収集が困難です。
さらに、水中アプリケーション用のラベル付きデータセットの顕著な不足があり、イベントベースのビジョンと自律的な水中車両(AUV)の統合を妨げます。
これに対処するために、合成データセットは、シミュレーションと現実のギャップを埋めながら、スケーラブルなソリューションを提供できます。
この作業では、Stonefishシミュレーターに基づいた合成イベントベースの光フローデータセットであるEstonefish-scenesを紹介します。
データセットに加えて、カスタマイズ可能な水中環境の作成を可能にするデータ生成パイプラインを提示します。
このパイプラインは、生物学的にインスパイアされた魚の学校など、障害物の回避やサンゴの周りの反応性ナビゲーションなど、現実的な動きパターンを示す魚の魚の学校などの動的なシナリオをシミュレートできるようにします。
さらに、地形全体にサンゴをランダムに分配することにより、現実的なサンゴ礁の海底を構築できるシーンジェネレーターを紹介します。
データのアクセシビリティを合理化するために、イベントベースのデータを処理するために設計された包括的なライブラリであるEwizを提示し、データの負荷、増強、視覚化、エンコード、およびトレーニングデータ生成のためのツールを提供し、損失機能とパフォーマンスメトリックを提供します。

要約(オリジナル)

The combined use of event-based vision and Spiking Neural Networks (SNNs) is expected to significantly impact robotics, particularly in tasks like visual odometry and obstacle avoidance. While existing real-world event-based datasets for optical flow prediction, typically captured with Unmanned Aerial Vehicles (UAVs), offer valuable insights, they are limited in diversity, scalability, and are challenging to collect. Moreover, there is a notable lack of labelled datasets for underwater applications, which hinders the integration of event-based vision with Autonomous Underwater Vehicles (AUVs). To address this, synthetic datasets could provide a scalable solution while bridging the gap between simulation and reality. In this work, we introduce eStonefish-scenes, a synthetic event-based optical flow dataset based on the Stonefish simulator. Along with the dataset, we present a data generation pipeline that enables the creation of customizable underwater environments. This pipeline allows for simulating dynamic scenarios, such as biologically inspired schools of fish exhibiting realistic motion patterns, including obstacle avoidance and reactive navigation around corals. Additionally, we introduce a scene generator that can build realistic reef seabeds by randomly distributing coral across the terrain. To streamline data accessibility, we present eWiz, a comprehensive library designed for processing event-based data, offering tools for data loading, augmentation, visualization, encoding, and training data generation, along with loss functions and performance metrics.

arxiv情報

著者 Jad Mansour,Sebastian Realpe,Hayat Rajani,Michele Grimaldi,Rafael Garcia,Nuno Gracias
発行日 2025-05-19 16:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | eStonefish-scenes: A synthetically generated dataset for underwater event-based optical flow prediction tasks はコメントを受け付けていません

Denoising Diffusion Probabilistic Model for Point Cloud Compression at Low Bit-Rates

要約

帯域幅に制約のあるアプリケーションにとって、低ビット率雲の効率的な圧縮が重要です。
ただし、既存の手法は主に高忠実度の再構成に焦点を当てており、圧縮に多くのビットが必要です。
このペーパーでは、低ビットレートでポイントクラウド圧縮(DDPM-PCC)の「拡散確率モデルを除去する」(DDPM)アーキテクチャを提案します。
ポイントネットエンコーダーは、生成の条件ベクトルを生成し、学習可能なベクター量子化器を介して量子化されます。
この構成により、品質を維持しながら、低ビットレートを実現できます。
ShapenetとModelNet40での実験は、標準化された最先端のアプローチと比較して、低速度でのレート耐性の改善を示しています。
https://github.com/eidoslab/ddpm-pccでコードを公開しました。

要約(オリジナル)

Efficient compression of low-bit-rate point clouds is critical for bandwidth-constrained applications. However, existing techniques mainly focus on high-fidelity reconstruction, requiring many bits for compression. This paper proposes a ‘Denoising Diffusion Probabilistic Model’ (DDPM) architecture for point cloud compression (DDPM-PCC) at low bit-rates. A PointNet encoder produces the condition vector for the generation, which is then quantized via a learnable vector quantizer. This configuration allows to achieve a low bitrates while preserving quality. Experiments on ShapeNet and ModelNet40 show improved rate-distortion at low rates compared to standardized and state-of-the-art approaches. We publicly released the code at https://github.com/EIDOSLAB/DDPM-PCC.

arxiv情報

著者 Gabriele Spadaro,Alberto Presta,Jhony H. Giraldo,Marco Grangetto,Wei Hu,Giuseppe Valenzise,Attilio Fiandrotti,Enzo Tartaglione
発行日 2025-05-19 16:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Denoising Diffusion Probabilistic Model for Point Cloud Compression at Low Bit-Rates はコメントを受け付けていません

VesselGPT: Autoregressive Modeling of Vascular Geometry

要約

解剖学的樹木は臨床診断と治療計画に重要ですが、それらの複雑で多様な幾何学により、正確な表現が重要な課題になります。
大規模な言語モデルの最新の進歩に動機付けられ、解剖学的木を合成するための自己回帰方法を紹介します。
私たちのアプローチは、最初に容器構造をVQ-Vaeアーキテクチャを使用して学習した離散語彙に埋め込み、次にGPT-2モデルで自己網目上モデルをモデル化します。
この方法は、複雑な幾何学と分岐パターンを効果的にキャプチャし、現実的な血管の樹木合成を可能にします。
包括的な定性的および定量的評価は、この手法がコンパクトな個別の表現を備えた高忠実度ツリー再構成を達成することを明らかにしています。
さらに、血管断面のBスプライン表現は、以前の「方法のパラメーター化」でしばしば見落とされる重要な形態学的詳細を保持します。
私たちの知る限り、この作業は、自己回帰的な方法で血管を生成した最初の仕事です。
コード、データ、トレーニングされたモデルが利用可能になります。

要約(オリジナル)

Anatomical trees are critical for clinical diagnosis and treatment planning, yet their complex and diverse geometry make accurate representation a significant challenge. Motivated by the latest advances in large language models, we introduce an autoregressive method for synthesizing anatomical trees. Our approach first embeds vessel structures into a learned discrete vocabulary using a VQ-VAE architecture, then models their generation autoregressively with a GPT-2 model. This method effectively captures intricate geometries and branching patterns, enabling realistic vascular tree synthesis. Comprehensive qualitative and quantitative evaluations reveal that our technique achieves high-fidelity tree reconstruction with compact discrete representations. Moreover, our B-spline representation of vessel cross-sections preserves critical morphological details that are often overlooked in previous’ methods parameterizations. To the best of our knowledge, this work is the first to generate blood vessels in an autoregressive manner. Code, data, and trained models will be made available.

arxiv情報

著者 Paula Feldman,Martin Sinnona,Viviana Siless,Claudio Delrieux,Emmanuel Iarussi
発行日 2025-05-19 16:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | VesselGPT: Autoregressive Modeling of Vascular Geometry はコメントを受け付けていません

Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning

要約

プレゼンテーション攻撃の検出とフェイスフォーファリー検出は、それぞれ物理メディアベースのプレゼンテーション攻撃とデジタル編集ベースのディープフェイクからフェイスデータを保護するように設計されています。
しかし、これら2つのモデルの個別のトレーニングにより、それらは未知の攻撃や負担の展開環境に対して脆弱になります。
両方のタイプの攻撃を処理するための統一されたフェイス攻撃検出モデルの欠如は、主に2つの要因によるものです。
まず、モデルが探索するための適切なベンチマークが不足しています。
既存のUADデータセットには、攻撃タイプとサンプルが限られているため、高度な脅威に対処するモデルの能力が制限されています。
これに対処するために、これまでで最も広範で洗練された偽造技術のコレクションであるUniattackdataplus(uniattackdata+)を提案します。
2,875個のアイデンティティと54種類の偽造サンプルが含まれ、合計697,347個のビデオです。
第二に、信頼できる分類基準が不足しています。
現在の方法は、同じセマンティック空間内で任意の基準を見つけようとします。これは、多様な攻撃に遭遇したときに失敗します。
そのため、さまざまなセマンティックスペースからの複数の分類基準を適応的に調査する新しい視覚言語モデルベースの階層プロンプトチューニングフレームワーク(Hiptune)を提示します。
視覚的なプロンプトツリーを構築して、さまざまな分類ルールを階層的に調査します。
次に、プロンプトを適応的に剪定することにより、モデルは最も適切なプロンプトを選択して、エンコーダを誘導して、粗からファインの方法で異なるレベルで識別機能を抽出することができます。
最後に、視覚空間の分類基準をモデルが理解できるようにするために、動的にプロンプ​​トの統合モジュールを提案して、より正確なセマンティクスのために視覚プロンプトをテキストエンコーダに投影します。
12のデータセットでの実験により、UAD分野のさらなるイノベーションを刺激する可能性が示されています。

要約(オリジナル)

Presentation Attack Detection and Face Forgery Detection are designed to protect face data from physical media-based Presentation Attacks and digital editing-based DeepFakes respectively. But separate training of these two models makes them vulnerable to unknown attacks and burdens deployment environments. The lack of a Unified Face Attack Detection model to handle both types of attacks is mainly due to two factors. First, there’s a lack of adequate benchmarks for models to explore. Existing UAD datasets have limited attack types and samples, restricting the model’s ability to address advanced threats. To address this, we propose UniAttackDataPlus (UniAttackData+), the most extensive and sophisticated collection of forgery techniques to date. It includes 2,875 identities and their 54 kinds of falsified samples, totaling 697,347 videos. Second, there’s a lack of a reliable classification criterion. Current methods try to find an arbitrary criterion within the same semantic space, which fails when encountering diverse attacks. So, we present a novel Visual-Language Model-based Hierarchical Prompt Tuning Framework (HiPTune) that adaptively explores multiple classification criteria from different semantic spaces. We build a Visual Prompt Tree to explore various classification rules hierarchically. Then, by adaptively pruning the prompts, the model can select the most suitable prompts to guide the encoder to extract discriminative features at different levels in a coarse-to-fine way. Finally, to help the model understand the classification criteria in visual space, we propose a Dynamically Prompt Integration module to project the visual prompts to the text encoder for more accurate semantics. Experiments on 12 datasets have shown the potential to inspire further innovations in the UAD field.

arxiv情報

著者 Ajian Liu,Haocheng Yuan,Xiao Guo,Hui Ma,Wanyi Zhuang,Changtao Miao,Yan Hong,Chuanbiao Song,Jun Lan,Qi Chu,Tao Gong,Yanyan Liang,Weiqiang Wang,Jun Wan,Xiaoming Liu,Zhen Lei
発行日 2025-05-19 16:35:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning はコメントを受け付けていません

RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers

要約

Ropecraftを提案します。Ropecraftは、回転式位置埋め込み(ロープ)を変更するだけで動作する拡散トランス向けのトレーニングなしのビデオモーション転送方法です。
最初に参照ビデオから密な光学流を抽出し、結果のモーションオフセットを利用して、ロープの複雑な表現テンソルをゆがめ、生成プロセスに効果的にモーションをエンコードします。
これらの埋め込みは、フローマッチング目標を使用して、予測された速度とターゲット速度の間の軌跡アライメントを介して、除去時期の間にさらに最適化されます。
テキストプロンプトに出力を忠実に保ち、重複した世代を防ぐために、参照ビデオのフーリエ変換の位相コンポーネントに基づいて正規化用語を組み込み、高頻度のアーティファクトを抑制するために位相角度を滑らかなマニホールドに投影します。
ベンチマークでの実験により、ロペクラフトは、定性的および定量的に最近公開されたすべての方法を上回ることが明らかになりました。

要約(オリジナル)

We propose RoPECraft, a training-free video motion transfer method for diffusion transformers that operates solely by modifying their rotary positional embeddings (RoPE). We first extract dense optical flow from a reference video, and utilize the resulting motion offsets to warp the complex-exponential tensors of RoPE, effectively encoding motion into the generation process. These embeddings are then further optimized during denoising time steps via trajectory alignment between the predicted and target velocities using a flow-matching objective. To keep the output faithful to the text prompt and prevent duplicate generations, we incorporate a regularization term based on the phase components of the reference video’s Fourier transform, projecting the phase angles onto a smooth manifold to suppress high-frequency artifacts. Experiments on benchmarks reveal that RoPECraft outperforms all recently published methods, both qualitatively and quantitatively.

arxiv情報

著者 Ahmet Berke Gokmen,Yigit Ekin,Bahri Batuhan Bilecen,Aysegul Dundar
発行日 2025-05-19 16:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers はコメントを受け付けていません

Faster Video Diffusion with Trainable Sparse Attention

要約

スケーリングビデオ拡散変圧器(DITS)は、ほとんどの注意質量が位置の小さなサブセットに集中しているにもかかわらず、2次3Dの注意によって制限されます。
この観察結果をVSAに変えます。VSAは、\ emphare {両方の}トレーニングと推論で完全な注意を置き換えるトレーニング可能でハードウェア効率の高いまばらな注意です。
VSAでは、軽量の粗いステージがトークンをタイルにプールし、高重量\ emph {クリティカルトークン}を識別します。
細かいステージは、トークンレベルの注意を計算します。これらのタイルは、コンピューティングレイアウトをブロックするためにブロックするタイルの内側のみを計算し、効率が硬くなります。
これにより、エンドツーエンドをトレーニングし、事後プロファイリングを必要とせず、Flashattention3 MFUの85%を維持する単一の微分可能なカーネルにつながります。
60mから1.4bのパラメーターまでのDITを前処理することにより、アブレーション研究とスケーリング法の実験の大規模なスイープを実行します。
VSAは、拡散損失の減少なしにトレーニングフロップを2.53 $ \ Times $削減するパレートポイントに到達します。
オープンソースWAN-2.1モデルを改造すると、注意時間が6ドル\ Times $を速め、31秒から18秒までエンドツーエンドの生成時間を低下させます。
これらの結果は、完全な注意の実用的な代替手段として、ビデオ拡散モデルのさらなるスケーリングのための重要なイネーブラーとして、訓練可能なまばらな注意を確立します。

要約(オリジナル)

Scaling video diffusion transformers (DiTs) is limited by their quadratic 3D attention, even though most of the attention mass concentrates on a small subset of positions. We turn this observation into VSA, a trainable, hardware-efficient sparse attention that replaces full attention at \emph{both} training and inference. In VSA, a lightweight coarse stage pools tokens into tiles and identifies high-weight \emph{critical tokens}; a fine stage computes token-level attention only inside those tiles subjecting to block computing layout to ensure hard efficiency. This leads to a single differentiable kernel that trains end-to-end, requires no post-hoc profiling, and sustains 85\% of FlashAttention3 MFU. We perform a large sweep of ablation studies and scaling-law experiments by pretraining DiTs from 60M to 1.4B parameters. VSA reaches a Pareto point that cuts training FLOPS by 2.53$\times$ with no drop in diffusion loss. Retrofitting the open-source Wan-2.1 model speeds up attention time by 6$\times$ and lowers end-to-end generation time from 31s to 18s with comparable quality. These results establish trainable sparse attention as a practical alternative to full attention and a key enabler for further scaling of video diffusion models.

arxiv情報

著者 Peiyuan Zhang,Haofeng Huang,Yongqi Chen,Will Lin,Zhengzhong Liu,Ion Stoica,Eric P. Xing,Hao Zhang
発行日 2025-05-19 17:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Faster Video Diffusion with Trainable Sparse Attention はコメントを受け付けていません

Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks

要約

抽象的な視覚推論(AVR)ドメインは、モデルの一般化の研究に専念する類推ベースのタスクの多様なスイートを提示します。
近年、この分野では、特にI.I.D.
モデルが同じデータ分布でトレーニングおよび評価されるシナリオ。
それにもかかわらず、O.O.D。
モデルの一般化を新しいテスト分布に評価するセットアップは、最新のモデルでも依然として困難です。
AVRタスクの一般化を進めるために、グループの畳み込み、正規化、並列設計を特徴とする新しい神経アーキテクチャである正規化されたグループ畳み込みモデル(PONG)の経路を提示します。
Ravenのプログレッシブマトリックスや、合成画像と現実世界の両方の画像での視覚的な類似性の問題を含む、幅広いAVRベンチマークを検討します。
実験は、提案されたモデルの強力な一般化能力を示しており、いくつかの設定では既存の文献方法よりも優れています。

要約(オリジナル)

The abstract visual reasoning (AVR) domain presents a diverse suite of analogy-based tasks devoted to studying model generalization. Recent years have brought dynamic progress in the field, particularly in i.i.d. scenarios, in which models are trained and evaluated on the same data distributions. Nevertheless, o.o.d. setups that assess model generalization to new test distributions remain challenging even for the most recent models. To advance generalization in AVR tasks, we present the Pathways of Normalized Group Convolution model (PoNG), a novel neural architecture that features group convolution, normalization, and a parallel design. We consider a wide set of AVR benchmarks, including Raven’s Progressive Matrices and visual analogy problems with both synthetic and real-world images. The experiments demonstrate strong generalization capabilities of the proposed model, which in several settings outperforms the existing literature methods.

arxiv情報

著者 Mikołaj Małkiński,Jacek Mańdziuk
発行日 2025-05-19 17:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks はコメントを受け付けていません

GuidedMorph: Two-Stage Deformable Registration for Breast MRI

要約

さまざまな時点から乳房MR画像を正確に登録すると、解剖学的構造の整合と腫瘍の進行の追跡が可能になり、より効果的な乳がんの検出、診断、および治療計画がサポートされます。
しかし、密な組織の複雑さとその非常に剛性のない性質は、従来の登録方法に課題をもたらします。これは、主に一般的な構造を調整しながら、複雑な内部の詳細を見下ろすことに焦点を当てています。
これに対処するために、\ TextBF {GuidedMorph}を提案します。これは、密な組織をより適切に整列するように設計された新しい2段階登録フレームワークです。
グローバル構造アラインメントのための単一スケールネットワークに加えて、胸の動きを追跡するために密な組織情報を利用するフレームワークを紹介します。
学習した変換フィールドは、デュアル空間変圧器ネットワーク(DSTN)を導入することで融合し、全体的なアライメント精度を向上させます。
ユークリッド距離変換(EDT)に基づいた新しいワーピング方法も提案されており、登録された密な組織と乳房マスクを正確にゆがめ、変形中に細かい構造の詳細を維持します。
フレームワークは、外部セグメンテーションモデルと画像データのみを必要とするパラダイムをサポートします。
また、VoxelmorphおよびTransmorphの骨格で効果的に動作し、乳房登録に汎用性の高いソリューションを提供します。
ISPY2および内部データセットでの方法を検証し、密度の高い組織、全体的な乳房整列、および乳房構造類似性指数測定(SSIM)で優れた性能を示し、密な組織ダイスで13.01%、乳房ダイスで3.13%、乳房SIMで1.21%を顕著に改善します。

要約(オリジナル)

Accurately registering breast MR images from different time points enables the alignment of anatomical structures and tracking of tumor progression, supporting more effective breast cancer detection, diagnosis, and treatment planning. However, the complexity of dense tissue and its highly non-rigid nature pose challenges for conventional registration methods, which primarily focus on aligning general structures while overlooking intricate internal details. To address this, we propose \textbf{GuidedMorph}, a novel two-stage registration framework designed to better align dense tissue. In addition to a single-scale network for global structure alignment, we introduce a framework that utilizes dense tissue information to track breast movement. The learned transformation fields are fused by introducing the Dual Spatial Transformer Network (DSTN), improving overall alignment accuracy. A novel warping method based on the Euclidean distance transform (EDT) is also proposed to accurately warp the registered dense tissue and breast masks, preserving fine structural details during deformation. The framework supports paradigms that require external segmentation models and with image data only. It also operates effectively with the VoxelMorph and TransMorph backbones, offering a versatile solution for breast registration. We validate our method on ISPY2 and internal dataset, demonstrating superior performance in dense tissue, overall breast alignment, and breast structural similarity index measure (SSIM), with notable improvements by over 13.01% in dense tissue Dice, 3.13% in breast Dice, and 1.21% in breast SSIM compared to the best learning-based baseline.

arxiv情報

著者 Yaqian Chen,Hanxue Gu,Haoyu Dong,Qihang Li,Yuwen Chen,Nicholas Konz,Lin Li,Maciej A. Mazurowski
発行日 2025-05-19 17:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | GuidedMorph: Two-Stage Deformable Registration for Breast MRI はコメントを受け付けていません