In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review

要約

データセットは医療画像研究で重要な役割を果たしていますが、ラベルの品質、ショートカット、メタデータなどの問題はしばしば見落とされています。
この注意の欠如は、アルゴリズムの一般化可能性に害を及ぼし、その結果、患者の転帰に悪影響を与える可能性があります。
既存の医療画像文献レビューは、主に機械学習(ML)方法に焦点を当てていますが、特定のアプリケーションのデータセットに焦点を当てているのは少数しかありませんが、これらのレビューは静的なままです。
これは、データセットが公開された後に他の研究者が貢献する可能性のあるバイアス、ショートカット、追加の注釈などの新たな証拠を説明できません。
これらの新しく発見されたデータセットの調査結果を研究アーティファクトと呼びます。
このギャップに対処するために、複数の医療イメージングアプリケーションにわたってパブリックデータセットと関連する研究アーティファクトを継続的に追跡するリビングレビューを提案します。
私たちのアプローチには、データドキュメントアーティファクトを監視するためのLiving Reviewのフレームワークと、研究アーティファクトとデータセットの間の引用関係を視覚化するSQLデータベースが含まれています。
最後に、医療画像データセットを作成するための重要な考慮事項について説明し、データアノテーションのベストプラクティスをレビューし、ショートカットと人口統計の多様性の重要性について議論し、ライフサイクル全体でデータセットを管理することの重要性を強調します。
デモはhttp://inthepicture.itu.dk/で公開されています。

要約(オリジナル)

Datasets play a critical role in medical imaging research, yet issues such as label quality, shortcuts, and metadata are often overlooked. This lack of attention may harm the generalizability of algorithms and, consequently, negatively impact patient outcomes. While existing medical imaging literature reviews mostly focus on machine learning (ML) methods, with only a few focusing on datasets for specific applications, these reviews remain static — they are published once and not updated thereafter. This fails to account for emerging evidence, such as biases, shortcuts, and additional annotations that other researchers may contribute after the dataset is published. We refer to these newly discovered findings of datasets as research artifacts. To address this gap, we propose a living review that continuously tracks public datasets and their associated research artifacts across multiple medical imaging applications. Our approach includes a framework for the living review to monitor data documentation artifacts, and an SQL database to visualize the citation relationships between research artifact and dataset. Lastly, we discuss key considerations for creating medical imaging datasets, review best practices for data annotation, discuss the significance of shortcuts and demographic diversity, and emphasize the importance of managing datasets throughout their entire lifecycle. Our demo is publicly available at http://inthepicture.itu.dk/.

arxiv情報

著者 Amelia Jiménez-Sánchez,Natalia-Rozalia Avlona,Sarah de Boer,Víctor M. Campello,Aasa Feragen,Enzo Ferrante,Melanie Ganz,Judy Wawira Gichoya,Camila González,Steff Groefsema,Alessa Hering,Adam Hulman,Leo Joskowicz,Dovile Juodelyte,Melih Kandemir,Thijs Kooi,Jorge del Pozo Lérida,Livie Yumeng Li,Andre Pacheco,Tim Rädsch,Mauricio Reyes,Théo Sourget,Bram van Ginneken,David Wen,Nina Weng,Jack Junchi Xu,Hubert Dariusz Zając,Maria A. Zuluaga,Veronika Cheplygina
発行日 2025-06-02 12:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review はコメントを受け付けていません

ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla

要約

視覚的な質問回答(VQA)は、視覚的文脈に関する自然言語の質問に答えるという問題を提起します。
バングラは、広く話されている言語であるにもかかわらず、適切なベンチマークがないため、VQAの領域では低リソースと見なされます。
さらに、既存のバングラVQAデータセットはほとんど地域の関連性を提供し、主に外国のカウンターパートから適応しています。
これらの課題に対処するために、大規模なBangla VQAデータセット、Chitrojeraを紹介し、多様およびローカルに関連するデータソースから合計15Kを超えるサンプルを紹介します。
テキストエンコーダー、画像エンコーダー、マルチモーダルモデル、および新しいデュアルエンコーダーモデルのパフォーマンスを評価します。
実験では、事前に訓練されたデュアルエンコーダーがスケールの他のモデルよりも優れていることが明らかになりました。
また、プロンプトベースの手法を使用して、現在の大型ビジョン言語モデル(LVLMS)のパフォーマンスを評価し、全体的な最高のパフォーマンスを達成します。
既存のデータセットの未開発の状態を考えると、バングラの視覚言語タスクの範囲を拡大するチトロジェラが想定しています。

要約(オリジナル)

Visual Question Answer (VQA) poses the problem of answering a natural language question about a visual context. Bangla, despite being a widely spoken language, is considered low-resource in the realm of VQA due to the lack of proper benchmarks, challenging models known to be performant in other languages. Furthermore, existing Bangla VQA datasets offer little regional relevance and are largely adapted from their foreign counterparts. To address these challenges, we introduce a large-scale Bangla VQA dataset, ChitroJera, totaling over 15k samples from diverse and locally relevant data sources. We assess the performance of text encoders, image encoders, multimodal models, and our novel dual-encoder models. The experiments reveal that the pre-trained dual-encoders outperform other models of their scale. We also evaluate the performance of current large vision language models (LVLMs) using prompt-based techniques, achieving the overall best performance. Given the underdeveloped state of existing datasets, we envision ChitroJera expanding the scope of Vision-Language tasks in Bangla.

arxiv情報

著者 Deeparghya Dutta Barua,Md Sakib Ul Rahman Sourove,Md Fahim,Fabiha Haider,Fariha Tanjim Shifat,Md Tasmim Rahman Adib,Anam Borhan Uddin,Md Farhan Ishmam,Md Farhad Alam
発行日 2025-06-02 12:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla はコメントを受け付けていません

SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models

要約

人間は自然に3Dの空間的関係を理解し​​、さまざまな方向からの車両の衝突を予測するような複雑な推論を可能にします。
ただし、現在の大規模なマルチモーダルモデル(LMM)は、3D空間推論のこの能力の欠如です。
この制限は、3Dトレーニングデータの希少性と、現在のモデルのバイアスが2Dデータに向けて設計されています。
この論文では、3D情報データ、アーキテクチャ、トレーニングセットアップの影響を体系的に研究し、高度な3D空間推論能力を備えた大規模なマルチモーダルモデルであるSpatialllmを導入します。
データの制限に対処するために、2種類の3D情報トレーニングデータセットを開発します。(1)オブジェクトの3D位置と方向に焦点を当てた3D情報プロービングデータ、および(2)複雑な空間関係のための3D情報の会話データ。
特に、私たちは、実際の画像に3Dオリエンテーション関係を組み込んだVQAデータをキュレートする最初の人物です。
さらに、これら2種類のトレーニングデータをLMMSのアーキテクチャおよびトレーニングデザインと体系的に統合し、優れた3D推論機能を達成することを目的とした最適な設計のロードマップを提供します。
Spatialllmは、GPT-4Oのパフォーマンスを8.7%超えて、非常に能力のある3D情報の推論に向けて機械を進めています。
私たちの体系的な経験的設計と結果として生じる調査結果は、この方向における将来の研究のための貴重な洞察を提供します。

要約(オリジナル)

Humans naturally understand 3D spatial relationships, enabling complex reasoning like predicting collisions of vehicles from different directions. Current large multimodal models (LMMs), however, lack of this capability of 3D spatial reasoning. This limitation stems from the scarcity of 3D training data and the bias in current model designs toward 2D data. In this paper, we systematically study the impact of 3D-informed data, architecture, and training setups, introducing SpatialLLM, a large multi-modal model with advanced 3D spatial reasoning abilities. To address data limitations, we develop two types of 3D-informed training datasets: (1) 3D-informed probing data focused on object’s 3D location and orientation, and (2) 3D-informed conversation data for complex spatial relationships. Notably, we are the first to curate VQA data that incorporate 3D orientation relationships on real images. Furthermore, we systematically integrate these two types of training data with the architectural and training designs of LMMs, providing a roadmap for optimal design aimed at achieving superior 3D reasoning capabilities. Our SpatialLLM advances machines toward highly capable 3D-informed reasoning, surpassing GPT-4o performance by 8.7%. Our systematic empirical design and the resulting findings offer valuable insights for future research in this direction.

arxiv情報

著者 Wufei Ma,Luoxin Ye,Nessa McWeeney,Celso M de Melo,Jieneng Chen,Alan Yuille
発行日 2025-06-02 12:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models はコメントを受け付けていません

Safety at Scale: A Comprehensive Survey of Large Model Safety

要約

大規模な事前トレーニングによる学習と一般化における並外れた能力によって推進される大規模なモデルの急速な進歩は、人工知能(AI)の景観を形作りました。
これらのモデルは現在、会話型AI、推奨システム、自律運転、コンテンツ生成、医療診断、科学的発見など、幅広いアプリケーションの基礎となっています。
しかし、彼らの広範な展開はまた、それらを重大な安全リスクにさらし、堅牢性、信頼性、倫理的意味についての懸念を引き起こします。
この調査では、Vision Foundationモデル(VFMS)、大規模な言語モデル(LLM)、ビジョン言語前トレーニング(VLP)モデル、ビジョン言語モデル(VLMS)、拡散モデル(DMS)、および大規模モデルベースのエージェントをカバーする大規模モデルに関する現在の安全研究の系統的レビューを提供します。
私たちの貢献は次のように要約されています。(1)敵対的攻撃、データ中毒、バックドア攻撃、脱獄および迅速な注入攻撃、エネルギー遅延攻撃、データとモデルの抽出攻撃、および新たなエージェント固有の脅威など、これらのモデルに対する安全性の脅威の包括的な分類法を提示します。
(2)利用可能な場合は、各タイプの攻撃について提案された防衛戦略を確認し、安全研究のために一般的に使用されるデータセットとベンチマークを要約します。
(3)これに基づいて、大規模なモデルの安全性におけるオープンな課題を特定し、議論し、包括的な安全評価、スケーラブルで効果的な防御メカニズム、および持続可能なデータプラクティスの必要性を強調します。
さらに重要なことは、研究コミュニティと国際的なコラボレーションからの集団的努力の必要性を強調しています。
私たちの仕事は、研究者と実践者にとって有用なリファレンスとして機能し、AIモデルを保護するための包括的な防衛システムとプラットフォームの継続的な開発を促進することができます。

要約(オリジナル)

The rapid advancement of large models, driven by their exceptional abilities in learning and generalization through large-scale pre-training, has reshaped the landscape of Artificial Intelligence (AI). These models are now foundational to a wide range of applications, including conversational AI, recommendation systems, autonomous driving, content generation, medical diagnostics, and scientific discovery. However, their widespread deployment also exposes them to significant safety risks, raising concerns about robustness, reliability, and ethical implications. This survey provides a systematic review of current safety research on large models, covering Vision Foundation Models (VFMs), Large Language Models (LLMs), Vision-Language Pre-training (VLP) models, Vision-Language Models (VLMs), Diffusion Models (DMs), and large-model-based Agents. Our contributions are summarized as follows: (1) We present a comprehensive taxonomy of safety threats to these models, including adversarial attacks, data poisoning, backdoor attacks, jailbreak and prompt injection attacks, energy-latency attacks, data and model extraction attacks, and emerging agent-specific threats. (2) We review defense strategies proposed for each type of attacks if available and summarize the commonly used datasets and benchmarks for safety research. (3) Building on this, we identify and discuss the open challenges in large model safety, emphasizing the need for comprehensive safety evaluations, scalable and effective defense mechanisms, and sustainable data practices. More importantly, we highlight the necessity of collective efforts from the research community and international collaboration. Our work can serve as a useful reference for researchers and practitioners, fostering the ongoing development of comprehensive defense systems and platforms to safeguard AI models.

arxiv情報

著者 Xingjun Ma,Yifeng Gao,Yixu Wang,Ruofan Wang,Xin Wang,Ye Sun,Yifan Ding,Hengyuan Xu,Yunhao Chen,Yunhan Zhao,Hanxun Huang,Yige Li,Jiaming Zhang,Xiang Zheng,Yang Bai,Zuxuan Wu,Xipeng Qiu,Jingfeng Zhang,Yiming Li,Xudong Han,Haonan Li,Jun Sun,Cong Wang,Jindong Gu,Baoyuan Wu,Siheng Chen,Tianwei Zhang,Yang Liu,Mingming Gong,Tongliang Liu,Shirui Pan,Cihang Xie,Tianyu Pang,Yinpeng Dong,Ruoxi Jia,Yang Zhang,Shiqing Ma,Xiangyu Zhang,Neil Gong,Chaowei Xiao,Sarah Erfani,Tim Baldwin,Bo Li,Masashi Sugiyama,Dacheng Tao,James Bailey,Yu-Gang Jiang
発行日 2025-06-02 12:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV | Safety at Scale: A Comprehensive Survey of Large Model Safety はコメントを受け付けていません

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

要約

このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量で完全にオープンソースのベースラインであるOpenuniを紹介します。
統一されたモデル学習における一般的なプラクティスに触発された私たちは、学習可能なクエリと軽量のトランスベースのコネクタを介して、既製のマルチモーダル大手言語モデル(LLMS)と拡散モデルを橋渡しすることにより、トレーニングの複雑さとオーバーヘッドを最小限に抑える効率的なトレーニング戦略を採用します。
アーキテクチャの最小限の選択により、Openuniは次のことを実証します。1)高品質および命令整列画像を生成し、2)Geneval、DPG-Bench、Wiseなどの標準ベンチマークで優れたパフォーマンスを実現し、1.1bおよび3.1bのアクティブ化されたパラメーターのみを備えています。
オープンな研究とコミュニティの進歩をサポートするために、https://github.com/wusize/openuniで、すべてのモデルの重み、トレーニングコード、キュレーションされたトレーニングデータセット(23mの画像テキストペアを含む)をリリースします。

要約(オリジナル)

In this report, we present OpenUni, a simple, lightweight, and fully open-source baseline for unifying multimodal understanding and generation. Inspired by prevailing practices in unified model learning, we adopt an efficient training strategy that minimizes the training complexity and overhead by bridging the off-the-shelf multimodal large language models (LLMs) and diffusion models through a set of learnable queries and a light-weight transformer-based connector. With a minimalist choice of architecture, we demonstrate that OpenUni can: 1) generate high-quality and instruction-aligned images, and 2) achieve exceptional performance on standard benchmarks such as GenEval, DPG- Bench, and WISE, with only 1.1B and 3.1B activated parameters. To support open research and community advancement, we release all model weights, training code, and our curated training datasets (including 23M image-text pairs) at https://github.com/wusize/OpenUni.

arxiv情報

著者 Size Wu,Zhonghua Wu,Zerui Gong,Qingyi Tao,Sheng Jin,Qinyue Li,Wei Li,Chen Change Loy
発行日 2025-06-02 13:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation はコメントを受け付けていません

Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds

要約

一般的に使用される暗黙のジオメトリ表現のように、署名された距離関数(SDF)は水密度のモデリングに限定され、一方、符号なし距離関数(UDF)はさまざまな表面を表すことができます。
ただし、その固有の理論的欠点、つまりゼロレベルセットでの非分化性により、最適な再構成品質が生じます。
この論文では、任意の表面タイプをモデル化するための新しい暗黙の表面表現であるスケーリングされた二乗距離関数(s $^{2} $ df)を提案します。
S $^{2} $ DFは、ゼロレベルセットでUDFの非差性問題に効果的に対処しながら、内部と外部の領域を区別しません。
S $^{2} $ dfがMonge-Ampereタイプの2次の部分微分方程式を満たしていることを実証し、Ground-Truth s $^{2} $ df値から監督なしで生の不整合点クラウドからS $^{2} $ DFを直接学習するために、新しいモンゲ – アメアの正規化を活用する学習パイプラインを開発できることを実証します。
複数のデータセットを越えた広範な実験は、この方法が、トレーニングの監督として地上真実の表面情報を必要とする最先端の監視されたアプローチを大幅に上回ることを示しています。
ソースコードは、https://github.com/chuanxiang-yang/s2dfで入手できます。

要約(オリジナル)

As commonly used implicit geometry representations, the signed distance function (SDF) is limited to modeling watertight shapes, while the unsigned distance function (UDF) is capable of representing various surfaces. However, its inherent theoretical shortcoming, i.e., the non-differentiability at the zero level set, would result in sub-optimal reconstruction quality. In this paper, we propose the scaled-squared distance function (S$^{2}$DF), a novel implicit surface representation for modeling arbitrary surface types. S$^{2}$DF does not distinguish between inside and outside regions while effectively addressing the non-differentiability issue of UDF at the zero level set. We demonstrate that S$^{2}$DF satisfies a second-order partial differential equation of Monge-Ampere-type, allowing us to develop a learning pipeline that leverages a novel Monge-Ampere regularization to directly learn S$^{2}$DF from raw unoriented point clouds without supervision from ground-truth S$^{2}$DF values. Extensive experiments across multiple datasets show that our method significantly outperforms state-of-the-art supervised approaches that require ground-truth surface information as supervision for training. The source code is available at https://github.com/chuanxiang-yang/S2DF.

arxiv情報

著者 Chuanxiang Yang,Yuanfeng Zhou,Guangshun Wei,Long Ma,Junhui Hou,Yuan Liu,Wenping Wang
発行日 2025-06-02 13:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds はコメントを受け付けていません

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

要約

Mast3Rからボトムアップを設計したリアルタイムの単眼密なスラムシステム、2ビュー3D再構成とマッチング以前に提示します。
この強力な事前に装備されているこのシステムは、一意のカメラセンターを超えて固定またはパラメトリックのカメラモデルで仮定しないにもかかわらず、ワイルド内のビデオシーケンスで堅牢です。
ポイントマップマッチング、カメラトラッキングとローカルフュージョン、グラフ構造とループの閉鎖、および2次のグローバル最適化のための効率的な方法を紹介します。
既知のキャリブレーションにより、システムの簡単な変更により、さまざまなベンチマーク全体で最先端のパフォーマンスが実現されます。
全体として、15 fpsで動作しながら世界的に一貫性のあるポーズと密な幾何学を生成できるプラグアンドプレイの単眼スラムシステムを提案します。

要約(オリジナル)

We present a real-time monocular dense SLAM system designed bottom-up from MASt3R, a two-view 3D reconstruction and matching prior. Equipped with this strong prior, our system is robust on in-the-wild video sequences despite making no assumption on a fixed or parametric camera model beyond a unique camera centre. We introduce efficient methods for pointmap matching, camera tracking and local fusion, graph construction and loop closure, and second-order global optimisation. With known calibration, a simple modification to the system achieves state-of-the-art performance across various benchmarks. Altogether, we propose a plug-and-play monocular SLAM system capable of producing globally-consistent poses and dense geometry while operating at 15 FPS.

arxiv情報

著者 Riku Murai,Eric Dexheimer,Andrew J. Davison
発行日 2025-06-02 13:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors はコメントを受け付けていません

S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning

要約

パラメーター効率の高い転送学習(PETL)は、複数のダウンストリームタスクの前提型モデルのスケールを削減することを目的としています。
ただし、モデルが拡大し続けると、既存のPETLメソッドのメモリフットプリントは、学習可能なパラメーターの削減と比較して大幅に減少しません。
この制限は、メモリが制約されたデバイス上のPETLメソッドの実際の展開を妨げます。
この目的のために、微調整中のアクティベーションのメモリフットプリントを減らすために、アクティベーション(S2A)と呼ばれる新しいPETLフレームワークを提案しました。
具体的には、我々のフレームワークは、1)パラメトリックモデル構造におけるアクティベーションモジュール設計(つまり、バイアス、プロンプト、およびサイドモジュール)で構成され、調整可能なパラメーターとアクティベーションメモリが大幅に減少します。
2)ノンパラメトリック構造(非線形関数など)の導関数に基づく活性化の4ビット量子化。これは、メモリの使用量を大幅に削減しながら精度を維持します。
その結果、S2Aメソッドは、パラメーターとメモリフットプリントの両方の点で軽量ソリューションを提供します。
さまざまなバックボーンでS2Aを評価し、さまざまなデータセットで広範な実験を行い、有効性を評価しました。
結果は、我々の方法が既存のPETL技術よりも優れているだけでなく、平均してGPUメモリフットプリントの4倍の削減を達成するだけでなく、調整可能なパラメーターが少ないと精度の競争力のあるパフォーマンスを示していることを示しています。
これらは、私たちの方法がハードウェアに制約のあるデバイスでの実用的な転送学習に非常に適していることを示しています。

要約(オリジナル)

Parameter-efficient transfer learning (PETL) aims to reduce the scales of pretrained models for multiple downstream tasks. However, as the models keep scaling up, the memory footprint of existing PETL methods is not significantly reduced compared to the reduction of learnable parameters. This limitation hinders the practical deployment of PETL methods on memory-constrained devices. To this end, we proposed a new PETL framework, called Structure to Activation (S2A), to reduce the memory footprint of activation during fine-tuning. Specifically, our framework consists of: 1) Activation modules design(i.e., bias, prompt and side modules) in the parametric model structure, which results in a significant reduction of adjustable parameters and activation memory; 2) 4-bit quantization of activations based on their derivatives for non-parametric structures (e.g., nonlinear functions), which maintains accuracy while significantly reducing memory usage. Our S2A method consequently offers a lightweight solution in terms of both parameters and memory footprint. We evaluated S2A with different backbones and performed extensive experiments on various datasets to evaluate the effectiveness. The results show that our methods not only outperform existing PETL techniques, achieving a fourfold reduction in GPU memory footprint on average, but also shows competitive performance in accuracy with fewer tunable parameters. These demonstrate that our method is highly suitable for practical transfer learning on hardware-constrained devices.

arxiv情報

著者 Tian Jin,Enjun Du,Changwei Wang,Wenhao Xu,Ding Luo
発行日 2025-06-02 13:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning はコメントを受け付けていません

Segment Anything for Histopathology

要約

核セグメンテーションは、デジタル病理学の重要な分析タスクです。
ただし、自動セグメンテーションの方法は、多くの場合、異なる分布からの新しいデータと格闘しているため、ユーザーは核に手動で注釈を付け、データ固有のモデルを再訓練する必要があります。
Segment Anything Model(SAM)などのVision Foundationモデル(VFM)は、自動およびインタラクティブセグメンテーションのためのより堅牢な代替品を提供します。
自然画像での成功にもかかわらず、組織病理学における核セグメンテーションの基礎モデルはまだ欠落しています。
SAMを適応させるための最初の努力はある程度の成功を示していますが、多様なセグメンテーションタスクの包括的なモデルをまだ導入していませんでした。
このギャップを埋めるために、多様なデータセットでSAMをトレーニングすることに基づいて、核セグメンテーション用のVFMであるPathosamを紹介します。
私たちの広範な実験は、それが組織病理学における自動およびインタラクティブな核インスタンスセグメンテーションの新しい最先端モデルであることを示しています。
また、セマンティック核のセグメンテーションを含む他のセグメンテーションタスクにどのように適応できるかを示します。
このタスクでは、最先端のセルビットをまだ破っていない一方で、人気のある方法よりも結果が得られることを示します。
私たちのモデルはオープンソースであり、データアノテーション用の一般的なツールと互換性があります。
また、全体のスライド画像セグメンテーションのスクリプトを提供します。
私たちのコードとモデルは、https://github.com/computational-cell-analytics/patho-samで公開されています。

要約(オリジナル)

Nucleus segmentation is an important analysis task in digital pathology. However, methods for automatic segmentation often struggle with new data from a different distribution, requiring users to manually annotate nuclei and retrain data-specific models. Vision foundation models (VFMs), such as the Segment Anything Model (SAM), offer a more robust alternative for automatic and interactive segmentation. Despite their success in natural images, a foundation model for nucleus segmentation in histopathology is still missing. Initial efforts to adapt SAM have shown some success, but did not yet introduce a comprehensive model for diverse segmentation tasks. To close this gap, we introduce PathoSAM, a VFM for nucleus segmentation, based on training SAM on a diverse dataset. Our extensive experiments show that it is the new state-of-the-art model for automatic and interactive nucleus instance segmentation in histopathology. We also demonstrate how it can be adapted for other segmentation tasks, including semantic nucleus segmentation. For this task, we show that it yields results better than popular methods, while not yet beating the state-of-the-art, CellViT. Our models are open-source and compatible with popular tools for data annotation. We also provide scripts for whole-slide image segmentation. Our code and models are publicly available at https://github.com/computational-cell-analytics/patho-sam.

arxiv情報

著者 Titus Griebel,Anwai Archit,Constantin Pape
発行日 2025-06-02 14:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Segment Anything for Histopathology はコメントを受け付けていません

AdaWorld: Learning Adaptable World Models with Latent Actions

要約

世界モデルは、アクション制御された将来の予測を学ぶことを目指しており、インテリジェントエージェントの開発に不可欠であることが証明されています。
ただし、ほとんどの既存の世界モデルは、実質的なアクションラベルデータとコストのかかるトレーニングに大きく依存しているため、限られた相互作用を通じて異種のアクションを備えた新しい環境に適応することが困難です。
この制限は、より広いドメイン全体の適用性を妨げる可能性があります。
この制限を克服するために、効率的な適応を可能にする革新的な世界モデル学習アプローチであるAdaworldを提案します。
重要なアイデアは、世界モデルの事前削除中にアクション情報を組み込むことです。
これは、ビデオから潜在的なアクションを自己監視する方法で抽出し、フレーム間で最も重要な遷移をキャプチャすることによって達成されます。
次に、これらの潜在的なアクションを条件とする自己回帰の世界モデルを開発します。
この学習パラダイムは、高度に適応性のある世界モデルを可能にし、限られた相互作用や微調整でも効率的な転送と新しい行動の学習を促進します。
複数の環境にわたる当社の包括的な実験は、Adaworldがシミュレーション品質と視覚計画の両方で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

World models aim to learn action-controlled future prediction and have proven essential for the development of intelligent agents. However, most existing world models rely heavily on substantial action-labeled data and costly training, making it challenging to adapt to novel environments with heterogeneous actions through limited interactions. This limitation can hinder their applicability across broader domains. To overcome this limitation, we propose AdaWorld, an innovative world model learning approach that enables efficient adaptation. The key idea is to incorporate action information during the pretraining of world models. This is achieved by extracting latent actions from videos in a self-supervised manner, capturing the most critical transitions between frames. We then develop an autoregressive world model that conditions on these latent actions. This learning paradigm enables highly adaptable world models, facilitating efficient transfer and learning of new actions even with limited interactions and finetuning. Our comprehensive experiments across multiple environments demonstrate that AdaWorld achieves superior performance in both simulation quality and visual planning.

arxiv情報

著者 Shenyuan Gao,Siyuan Zhou,Yilun Du,Jun Zhang,Chuang Gan
発行日 2025-06-02 14:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | AdaWorld: Learning Adaptable World Models with Latent Actions はコメントを受け付けていません