RayFronts: Open-Set Semantic Ray Frontiers for Online Scene Understanding and Exploration

要約

オープンワールドロボットにとって、オープンセットセマンティックマッピングが重要です。
現在のマッピングアプローチは、深さ範囲によって制限されているか、制約された設定にマップを超えたエンティティのみが制限されます。
さらに、これらの方法は、きめ細かいセマンティクスと効率の間のトレードオフを行います。
Rayfrontsを紹介します。レイフロントは、密集したものとレンジを超えた効率的なセマンティックマッピングの両方を可能にする統一された表現を紹介します。
Rayfrontsは、タスクに依存しないオープンセットセマンティクスを、地図の境界でエンコードされた範囲内のボクセルとベインドレンジの光線の両方にエンコードし、ロボットが検索量を大幅に削減し、Orin AGXで8.84 Hzで実行しながら、感覚範囲内および感覚範囲内および感覚範囲の両方で情報に基づいた決定を下すことができます。
ベンチマークの範囲内セマンティクスは、Rayfrontsのきめ細かい画像エンコードが1.34x Zero-Shot 3Dセマンティックセグメンテーションパフォーマンスを提供しながら、スループットを16.5倍に改善することを示しています。
従来、オンラインマッピングパフォーマンスは他のシステムコンポーネントに絡み合っており、評価を複雑にしています。
オンラインを超えたレンジを超えた検索と探索のユーティリティをキャプチャするプランナーと依存の評価フレームワークを提案し、Rayfrontsが最も近いオンラインベースラインよりも効率的に検索ボリューム2.2倍を削減することを示唆しています。

要約(オリジナル)

Open-set semantic mapping is crucial for open-world robots. Current mapping approaches either are limited by the depth range or only map beyond-range entities in constrained settings, where overall they fail to combine within-range and beyond-range observations. Furthermore, these methods make a trade-off between fine-grained semantics and efficiency. We introduce RayFronts, a unified representation that enables both dense and beyond-range efficient semantic mapping. RayFronts encodes task-agnostic open-set semantics to both in-range voxels and beyond-range rays encoded at map boundaries, empowering the robot to reduce search volumes significantly and make informed decisions both within & beyond sensory range, while running at 8.84 Hz on an Orin AGX. Benchmarking the within-range semantics shows that RayFronts’s fine-grained image encoding provides 1.34x zero-shot 3D semantic segmentation performance while improving throughput by 16.5x. Traditionally, online mapping performance is entangled with other system components, complicating evaluation. We propose a planner-agnostic evaluation framework that captures the utility for online beyond-range search and exploration, and show RayFronts reduces search volume 2.2x more efficiently than the closest online baselines.

arxiv情報

著者 Omar Alama,Avigyan Bhattacharya,Haoyang He,Seungchan Kim,Yuheng Qiu,Wenshan Wang,Cherie Ho,Nikhil Keetha,Sebastian Scherer
発行日 2025-04-09 16:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | RayFronts: Open-Set Semantic Ray Frontiers for Online Scene Understanding and Exploration はコメントを受け付けていません

Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies

要約

拡散モデルは、現実的な画像を合成する際に顕著な能力を実証し、さまざまな下流タスクに表現を使用することに関心を促しています。
これらの表現の堅牢性をよりよく理解するために、表現の類似性と規範を使用して、一般的な安定した拡散モデルを分析します。
私たちの調査結果は、3つの現象を明らかにしています。(1)中間表現に学習された位置埋め込みの存在、(2)高類似コーナーアーティファクト、および(3)異常な高ノームアーティファクト。
これらの調査結果は、堅牢な機能を必要とする下流のタスクを検討する前に、拡散モデル表現の特性をさらに調査する必要性を強調しています。
プロジェクトページ:https://jonasloos.github.io/sd-representation-anomalies

要約(オリジナル)

Diffusion models have demonstrated remarkable capabilities in synthesizing realistic images, spurring interest in using their representations for various downstream tasks. To better understand the robustness of these representations, we analyze popular Stable Diffusion models using representational similarity and norms. Our findings reveal three phenomena: (1) the presence of a learned positional embedding in intermediate representations, (2) high-similarity corner artifacts, and (3) anomalous high-norm artifacts. These findings underscore the need to further investigate the properties of diffusion model representations before considering them for downstream tasks that require robust features. Project page: https://jonasloos.github.io/sd-representation-anomalies

arxiv情報

著者 Jonas Loos,Lorenz Linhardt
発行日 2025-04-09 16:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies はコメントを受け付けていません

Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback

要約

科学研究のパラダイムは、人工知能(AI)の発達により、深い変換を受けています。
最近の研究は、さまざまなAI支援研究方法が、データ分析を改善し、計算を加速し、新しいアイデア生成を促進することにより、研究効率を大幅に改善できることを示しています。
このホワイトペーパーでは、究極の目標(つまり、自動科学研究)にさらに進むために、科学研究の自動化レベルを強化するための閉ループLLM駆動型のフレームワークであるDolphinを紹介します。
Dolphinは、最初に、トピックとタスクの属性によってランク付けされた以前の実験と関連する論文からのフィードバックに基づいて、新しいアイデアを生成します。
次に、生成されたアイデアは、設計された例外クラドローカルコード構造で洗練され、デバッグされたコードテンプレートを使用して実装できます。
最後に、イルカは各アイデアの結果を自動的に分析し、結果を次のアイデア生成に戻します。
実験は、さまざまなトピックのベンチマークデータセットとMLEベンチのサブセットで行われます。
結果は、イルカがループ内の入力トピックのパフォーマンスを継続的に改善できることを示しています。
イルカは、3Dポイント分類などのいくつかのタスクの最先端に匹敵する方法を自動的に提案できることを強調しています。

要約(オリジナル)

The scientific research paradigm is undergoing a profound transformation owing to the development of Artificial Intelligence (AI). Recent works demonstrate that various AI-assisted research methods can largely improve research efficiency by improving data analysis, accelerating computation, and fostering novel idea generation. To further move towards the ultimate goal (i.e., automatic scientific research), in this paper, we introduce Dolphin, a closed-loop LLM-driven framework to enhance the automation level of scientific research. Dolphin first generates novel ideas based on feedback from previous experiments and relevant papers ranked by the topic and task attributes. Then, the generated ideas can be implemented using a code template refined and debugged with the designed exception-traceback-guided local code structure. Finally, Dolphin automatically analyzes the results of each idea and feeds the results back to the next round of idea generation. Experiments are conducted on the benchmark datasets of different topics and a subset of MLE-bench. Results show that Dolphin can continuously improve the performance of the input topic in a loop. We highlight that Dolphin can automatically propose methods that are comparable to the state-of-the-art in some tasks such as 3D point classification.

arxiv情報

著者 Jiakang Yuan,Xiangchao Yan,Shiyang Feng,Bo Zhang,Tao Chen,Botian Shi,Wanli Ouyang,Yu Qiao,Lei Bai,Bowen Zhou
発行日 2025-04-09 16:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback はコメントを受け付けていません

Glossy Object Reconstruction with Cost-effective Polarized Acquisition

要約

光沢のあるオブジェクトの画像ベースの3D再構成の課題は、RGBデータのみを使用して照明条件と材料特性の曖昧さによって複雑になるタスクである、キャプチャされた画像から光沢のある表面上の拡散コンポーネントと鏡面コンポーネントを分離することにあります。
最先端の方法は、データ収集のためにテーラードおよび/またはハイエンドの機器に依存していますが、これは面倒で時間がかかる場合がありますが、この作業は、費用対効果の高い取得ツールを採用するスケーラブルな偏光支援アプローチを導入します。
線形偏光子を容易に利用可能なRGBカメラに取り付けることにより、マルチビュー偏光画像をキャプチャできます。偏光子角の事前キャリブレーションや正確な測定を必要とせずに、システムの構築コストを大幅に削減できます。
提案されているアプローチは、神経暗黙の場としてのオブジェクト表面の偏光BRDF、ストークスベクトル、および偏光状態を表します。
これらのフィールドは、偏光子角と組み合わせて、入力偏光画像のレンダリング損失を最適化することにより取得されます。
偏光レンダリングの暗黙的な表現の基本的な物理的原理を活用することにより、私たちの方法は、再構築と新規ビューの合成の両方で、パブリックデータセットの実験と実際のキャプチャされた画像を通じて既存の技術に対する優位性を示しています。

要約(オリジナル)

The challenge of image-based 3D reconstruction for glossy objects lies in separating diffuse and specular components on glossy surfaces from captured images, a task complicated by the ambiguity in discerning lighting conditions and material properties using RGB data alone. While state-of-the-art methods rely on tailored and/or high-end equipment for data acquisition, which can be cumbersome and time-consuming, this work introduces a scalable polarization-aided approach that employs cost-effective acquisition tools. By attaching a linear polarizer to readily available RGB cameras, multi-view polarization images can be captured without the need for advance calibration or precise measurements of the polarizer angle, substantially reducing system construction costs. The proposed approach represents polarimetric BRDF, Stokes vectors, and polarization states of object surfaces as neural implicit fields. These fields, combined with the polarizer angle, are retrieved by optimizing the rendering loss of input polarized images. By leveraging fundamental physical principles for the implicit representation of polarization rendering, our method demonstrates superiority over existing techniques through experiments in public datasets and real captured images on both reconstruction and novel view synthesis.

arxiv情報

著者 Bojian Wu,Yifan Peng,Ruizhen Hu,Xiaowei Zhou
発行日 2025-04-09 16:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Glossy Object Reconstruction with Cost-effective Polarized Acquisition はコメントを受け付けていません

Distilling Textual Priors from LLM to Efficient Image Fusion

要約

マルチモダリティ画像Fusionは、複数のソース入力からの単一の包括的な画像を合成することを目的としています。
CNNやGANなどの従来のアプローチは、効率を提供しますが、低品質または複雑な入力を処理するのに苦労しています。
テキスト誘導方法の最近の進歩は、これらの制限を克服するために大規模なモデルのプライアーを活用していますが、メモリと推論時間の両方で重要な計算オーバーヘッドを犠牲にしています。
この課題に対処するために、大規模なモデルの事前に蒸留するための新しいフレームワークを提案し、モデルサイズを劇的に削減しながら、推論中のテキストガイダンスの必要性を排除します。
当社のフレームワークは、教師の学生アーキテクチャを利用しています。教師ネットワークには、大規模なモデルが組み込まれ、この知識を調整された蒸留プロセスを介して小規模な学生ネットワークに転送します。
さらに、空間チャネルの交差融合モジュールを導入して、空間的ディメンションとチャネル次元の両方でテキストプライアーを活用するモデルの能力を高めます。
私たちの方法は、計算効率と融合品質の間の好ましいトレードオフを達成します。
教師ネットワークのパラメーターと推論時間の10 \%のみを必要とする蒸留ネットワークは、そのパフォーマンスの90%を保持し、既存のSOTAメソッドを上回ります。
広範な実験は、私たちのアプローチの有効性を示しています。
実装は、オープンソースリソースとして公開されます。

要約(オリジナル)

Multi-modality image fusion aims to synthesize a single, comprehensive image from multiple source inputs. Traditional approaches, such as CNNs and GANs, offer efficiency but struggle to handle low-quality or complex inputs. Recent advances in text-guided methods leverage large model priors to overcome these limitations, but at the cost of significant computational overhead, both in memory and inference time. To address this challenge, we propose a novel framework for distilling large model priors, eliminating the need for text guidance during inference while dramatically reducing model size. Our framework utilizes a teacher-student architecture, where the teacher network incorporates large model priors and transfers this knowledge to a smaller student network via a tailored distillation process. Additionally, we introduce spatial-channel cross-fusion module to enhance the model’s ability to leverage textual priors across both spatial and channel dimensions. Our method achieves a favorable trade-off between computational efficiency and fusion quality. The distilled network, requiring only 10\% of the parameters and inference time of the teacher network, retains 90\% of its performance and outperforms existing SOTA methods. Extensive experiments demonstrate the effectiveness of our approach. The implementation will be made publicly available as an open-source resource.

arxiv情報

著者 Ran Zhang,Xuanhua He,Ke Cao,Liu Liu,Li Zhang,Man Zhou,Jie Zhang
発行日 2025-04-09 16:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distilling Textual Priors from LLM to Efficient Image Fusion はコメントを受け付けていません

Holstein-Friesian Re-Identification using Multiple Cameras and Self-Supervision on a Working Farm

要約

Multicamcows2024は、ユニークな白黒のコートパターンを利用する個々のホルスタイン – フリージアン牛の生体認証のために、複数のカメラで撮影された農場規模の画像データセットを提示します。
作業酪農場で7日間にわたって隣接する納屋エリアをカバーする3つの天井に取り付けられた視覚センサーで撮影されたデータセットは、90頭の牛の101,329枚の画像と、基礎となる元のCCTV映像で構成されています。
データセットには、完全なコンピュータービジョン認識ベースラインが提供されています。これは、牛のトラックレットで訓練された個々の牛の識別のための監視された自己監視学習フレームワークです。
データセットから96%を超える単一画像識別の精度を報告し、学習中に複数のカメラからのデータを組み合わせることで、自己教師の識別が強化されることを示しています。
私たちのフレームワークは、データ収集中のトラックレットの完全性の単純な検証のみを除いて、自動牛の識別を可能にすることを示します。
重要なことに、我々の研究は、マルチカメラ、監視済み、自己監視されたコンポーネントがタンデムで強調していることを強調しています。
この有効性の改善は、家畜管理、行動分析、農業監視に実際的な意味を持っていると主張しています。
再現性と実用的な使いやすさのために、https://tinyurl.com/multicamcows2024で入手可能な、このペーパーで再識別コンポーネントと種検出器を含むすべての主要なソフトウェアとコードを公開します。

要約(オリジナル)

We present MultiCamCows2024, a farm-scale image dataset filmed across multiple cameras for the biometric identification of individual Holstein-Friesian cattle exploiting their unique black and white coat-patterns. Captured by three ceiling-mounted visual sensors covering adjacent barn areas over seven days on a working dairy farm, the dataset comprises 101,329 images of 90 cows, plus underlying original CCTV footage. The dataset is provided with full computer vision recognition baselines, that is both a supervised and self-supervised learning framework for individual cow identification trained on cattle tracklets. We report a performance above 96% single image identification accuracy from the dataset and demonstrate that combining data from multiple cameras during learning enhances self-supervised identification. We show that our framework enables automatic cattle identification, barring only the simple human verification of tracklet integrity during data collection. Crucially, our study highlights that multi-camera, supervised and self-supervised components in tandem not only deliver highly accurate individual cow identification, but also achieve this efficiently with no labelling of cattle identities by humans. We argue that this improvement in efficacy has practical implications for livestock management, behaviour analysis, and agricultural monitoring. For reproducibility and practical ease of use, we publish all key software and code including re-identification components and the species detector with this paper, available at https://tinyurl.com/MultiCamCows2024.

arxiv情報

著者 Phoenix Yu,Tilo Burghardt,Andrew W Dowsey,Neill W Campbell
発行日 2025-04-09 17:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Holstein-Friesian Re-Identification using Multiple Cameras and Self-Supervision on a Working Farm はコメントを受け付けていません

A Unified Agentic Framework for Evaluating Conditional Image Generation

要約

条件付き画像生成は、コンテンツをパーソナライズする能力について大きな注目を集めています。
ただし、この分野は、タスクに依存しない、信頼性が高く、説明可能な評価メトリックの開発において課題に直面しています。
このペーパーでは、条件付き画像生成タスクの包括的な評価のための統一されたエージェントフレームワークであるCigevalを紹介します。
CIGEVALは、大規模なマルチモーダルモデル(LMM)をコアとして利用し、多機能ツールボックスを統合し、微調整された評価フレームワークを確立します。
さらに、微調整のための評価軌道を合成し、小さなLMMSに適切なツールを自律的に選択し、ツール出力に基づいて微妙な分析を実施するように力を与えます。
7つの顕著な条件付き画像生成タスクにわたる実験では、CIGEVAL(GPT-4Oバージョン)が0.4625の高い相関をヒト評価と達成し、0.47のアノテーター間相関に密接に一致することが示されています。
さらに、わずか2.3kのトレーニング軌跡を使用して7BオープンソースLMMで実装された場合、Cievalは以前のGPT-4Oベースの最先端の方法を上回ります。
GPT-4O画像生成に関するケーススタディは、被験者の一貫性とガイダンスの制御に関連する微妙な問題を特定する際のCigvalの能力を強調し、人間レベルの信頼性を備えた画像生成タスクの評価を自動化する大きな可能性を示しています。

要約(オリジナル)

Conditional image generation has gained significant attention for its ability to personalize content. However, the field faces challenges in developing task-agnostic, reliable, and explainable evaluation metrics. This paper introduces CIGEval, a unified agentic framework for comprehensive evaluation of conditional image generation tasks. CIGEval utilizes large multimodal models (LMMs) as its core, integrating a multi-functional toolbox and establishing a fine-grained evaluation framework. Additionally, we synthesize evaluation trajectories for fine-tuning, empowering smaller LMMs to autonomously select appropriate tools and conduct nuanced analyses based on tool outputs. Experiments across seven prominent conditional image generation tasks demonstrate that CIGEval (GPT-4o version) achieves a high correlation of 0.4625 with human assessments, closely matching the inter-annotator correlation of 0.47. Moreover, when implemented with 7B open-source LMMs using only 2.3K training trajectories, CIGEval surpasses the previous GPT-4o-based state-of-the-art method. Case studies on GPT-4o image generation highlight CIGEval’s capability in identifying subtle issues related to subject consistency and adherence to control guidance, indicating its great potential for automating evaluation of image generation tasks with human-level reliability.

arxiv情報

著者 Jifang Wang,Xue Yang,Longyue Wang,Zhenran Xu,Yiyu Wang,Yaowei Wang,Weihua Luo,Kaifu Zhang,Baotian Hu,Min Zhang
発行日 2025-04-09 17:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | A Unified Agentic Framework for Evaluating Conditional Image Generation はコメントを受け付けていません

Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models

要約

このペーパーでは、大規模なマルチモーダルモデル(LMMS)の堅牢な理解能力を評価するための新しいタスクを紹介します。
多肢選択式の質問応答(MCQA)は、LMMの理解能力を評価するために広く使用されていますが、LMMが本当に答えを理解することを保証するものではありません。
UPDは、MCQAの解決不可能な問題に遭遇したときに答えを差し控えるLMMの能力を評価し、モデルが本当に答えを理解しているかどうかを確認します。
UPDには、回答がない(AAD)、互換性のない回答セット検出(IASD)、および互換性のない視覚的質問検出(IVQD)の欠如の3つの問題が含まれます。
評価のために、さまざまな能力の次元にわたるパフォーマンスを評価するためのベンチマークであるMM-UPDベンチを導入します。
私たちの実験は、既存のベンチマークで適切なパフォーマンスを実証するほとんどのLMMでさえ、MM-UPDと大幅に苦労し、現在のベンチマークが見落としている信頼性の新しい側面を強調していることを明らかにしています。
詳細な分析では、LMMには異なるボトルネックがあり、LMMSのボトルネックを使用してLMMのパフォーマンスが向上し、自己反映が改善されていることが示されています。
私たちの洞察が、より信頼性の高いLMMのより広範な理解と開発を強化することを願っています。

要約(オリジナル)

This paper introduces a novel task to evaluate the robust understanding capability of Large Multimodal Models (LMMs), termed $\textbf{Unsolvable Problem Detection (UPD)}$. Multiple-choice question answering (MCQA) is widely used to assess the understanding capability of LMMs, but it does not guarantee that LMMs truly comprehend the answer. UPD assesses the LMM’s ability to withhold answers when encountering unsolvable problems of MCQA, verifying whether the model truly understands the answer. UPD encompasses three problems: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD), covering unsolvable cases like answer-lacking or incompatible choices and image-question mismatches. For the evaluation, we introduce the MM-UPD Bench, a benchmark for assessing performance across various ability dimensions. Our experiments reveal that even most LMMs, which demonstrate adequate performance on existing benchmarks, struggle significantly with MM-UPD, underscoring a novel aspect of trustworthiness that current benchmarks have overlooked. A detailed analysis shows that LMMs have different bottlenecks and chain-of-thought and self-reflection improved performance for LMMs with the bottleneck in their LLM capability. We hope our insights will enhance the broader understanding and development of more reliable LMMs.

arxiv情報

著者 Atsuyuki Miyai,Jingkang Yang,Jingyang Zhang,Yifei Ming,Qing Yu,Go Irie,Yixuan Li,Hai Li,Ziwei Liu,Kiyoharu Aizawa
発行日 2025-04-09 17:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models はコメントを受け付けていません

Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection

要約

少数のショットオブジェクト検出(FSOD)の目的は、トレーニングサンプルがほとんどない新しいオブジェクトを検出することです。
このタスクの中心的な課題は、学習検出モデルを未知のシナリオに適応できるベースカテゴリ空間に基づいて、データが限られているデータを持つ新しいカテゴリの一般化された機能空間を構築する方法です。
ただし、新しいカテゴリの不十分なサンプルによって制限されていますが、2つの問題がまだ存在します。(1)斬新なカテゴリの特徴は、ベースカテゴリの特徴によって容易に暗黙的に表現され、分離不可能な分類器境界につながります。
これらの問題に対処するために、特徴空間とサンプルの視点から導き出された否定的な影響を軽減するために副情報を導入し、FSODの新しい一般化された特徴表現学習方法を策定します。
具体的には、まず、埋め込みサイド情報を利用して知識マトリックスを構築して、ベースカテゴリと新しいカテゴリ間のセマンティック関係を定量化します。
次に、意味的に類似したカテゴリ間の差別を強化するために、副情報を埋め込むコンテキストセマンティックな監視された監視された対照学習をさらに開発します。
さらに、まばらなサンプルによって引き起こされる過剰適合の問題を防ぐために、サンプルの多様性を増強するために、副情報ガイド付き地域認識マスクモジュールが導入されます。サンプルの多様性は、反事実的な説明を介して同様のカテゴリを区別し、差別的表現空間をさらに洗練する偏った情報を見つけて放棄します。
Pascal VOC、MS Coco、LVIS V1、FSOD-1K、およびFSVOD-500ベンチマークでResNetおよびVITバックボーンを使用した広範な実験は、モデルが以前の最先端の方法を上回り、ほとんどのショット/スプリットでのFSODの能力を大幅に改善することを示しています。

要約(オリジナル)

The objective of few-shot object detection (FSOD) is to detect novel objects with few training samples. The core challenge of this task is how to construct a generalized feature space for novel categories with limited data on the basis of the base category space, which could adapt the learned detection model to unknown scenarios. However, limited by insufficient samples for novel categories, two issues still exist: (1) the features of the novel category are easily implicitly represented by the features of the base category, leading to inseparable classifier boundaries, (2) novel categories with fewer data are not enough to fully represent the distribution, where the model fine-tuning is prone to overfitting. To address these issues, we introduce the side information to alleviate the negative influences derived from the feature space and sample viewpoints and formulate a novel generalized feature representation learning method for FSOD. Specifically, we first utilize embedding side information to construct a knowledge matrix to quantify the semantic relationship between the base and novel categories. Then, to strengthen the discrimination between semantically similar categories, we further develop contextual semantic supervised contrastive learning which embeds side information. Furthermore, to prevent overfitting problems caused by sparse samples, a side-information guided region-aware masked module is introduced to augment the diversity of samples, which finds and abandons biased information that discriminates between similar categories via counterfactual explanation, and refines the discriminative representation space further. Extensive experiments using ResNet and ViT backbones on PASCAL VOC, MS COCO, LVIS V1, FSOD-1K, and FSVOD-500 benchmarks demonstrate that our model outperforms the previous state-of-the-art methods, significantly improving the ability of FSOD in most shots/splits.

arxiv情報

著者 Ruoyu Chen,Hua Zhang,Jingzhi Li,Li Liu,Zhen Huang,Xiaochun Cao
発行日 2025-04-09 17:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection はコメントを受け付けていません

Teaching pathology foundation models to accurately predict gene expression with parameter efficient knowledge transfer

要約

遺伝子発現プロファイリングは、細胞の不均一性、生物学的プロセス、疾患メカニズムに関する重要な洞察を提供します。
デジタル化された組織病理学の画像から遺伝子発現を直接予測できる計算アプローチへの関心が高まっています。
Image Foundationモデルは、さまざまな病理のダウンストリーム分析で有望であることを示していますが、遺伝子発現予測に関するパフォーマンスは依然として限られています。
トランスクリプトームモデルから情報を明示的に組み込むことで、画像モデルがドメインシフトに対処するのに役立ちますが、基礎モデルの微調整とアライメントは高価になる可能性があります。
作業では、ブロックアフィンの適応を活用し、クロスモーダルナレッジ転送のための知識の蒸留と構造アライメント損失を統合する新しいフレームワークであるパラメーター効率の知識転送(PEKA)を提案します。
さまざまなタイプの組織を含む複数の空間トランスクリプトームデータセット(一致した遺伝子発現プロファイルを備えた206,123の画像タイルを含む)を使用して、遺伝子発現予測についてPEKAを評価しました。
PEKAは、ベースラインファンデーションモデルよりも少なくとも5 \%のパフォーマンス改善を達成し、代替パラメーター効率の高い微調整戦略を上回りました。
Peer-Reviewの後にコード、データセット、アラインドモデルをリリースして、パラメーター効率の高いモデルアライメントのより広範な採用とさらなる開発を促進します。

要約(オリジナル)

Gene expression profiling provides critical insights into cellular heterogeneity, biological processes and disease mechanisms. There has been an increasing interest in computational approaches that can predict gene expression directly from digitalized histopathology images. While image foundation models have shown promise in a variety of pathology downstream analysis, their performances on gene-expression prediction are still limited. Explicitly incorporating information from the transcriptomic models can help image models to address domain shift, yet the fine-tuning and alignment of foundation models can be expensive. In the work, we propose Parameter Efficient Knowledge trAnsfer (PEKA), a novel framework that leverages Block-Affine Adaptation and integrates knowledge distillation and structure alignment losses for cross-modal knowledge transfer. We evaluated PEKA for gene expression prediction using multiple spatial transcriptomics datasets (comprising 206,123 image tiles with matched gene expression profiles) that encompassed various types of tissue. PEKA achieved at least 5\% performance improvement over baseline foundation models while also outperforming alternative parameter-efficient fine-tuning strategies. We will release the code, datasets and aligned models after peer-review to facilitate broader adoption and further development for parameter efficient model alignment.

arxiv情報

著者 Shi Pan,Jianan Chen,Maria Secrier
発行日 2025-04-09 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Teaching pathology foundation models to accurately predict gene expression with parameter efficient knowledge transfer はコメントを受け付けていません