SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation

要約

現在のビジョン言語モデルは、基本的な空間の手がかりと単純な方向(例:左、右、正面、背面)を把握することができますが、人間のような理解と現実世界のアプリケーションに必要な多次元空間的推論と闘っています。
このギャップに対処するために、新しい人間が解決した新しいデータセットによってサポートされる階層的評価フレームワークである球体(空間認識と推論の階層的評価)を開発します。
球体は、基本的なスキルからマルチスキルの統合、空間、視覚、および論理的理解を組み合わせた高レベルの推論に至るまで、複雑さのレベルの増加にわたってモデルを体系的に調査します。
最先端のモデルのベンチマーク評価は、特に距離と近接性に関する推論において、重要な欠陥を明らかにし、エゴセントリックとアロセントリックの両方の視点を理解し、物理的な文脈で空間論理を適用します。
これらの発見は、既存のモデルの重要なブラインドスポットを明らかにし、より高度な空間推論技術の必要性を強調し、人間の空間認知とより密接に整合する視覚モデルの開発を促進します。
Sphere Benchmarkはhttps://github.com/zwenyu/sphere-vlmで入手できます。

要約(オリジナル)

Current vision-language models may grasp basic spatial cues and simple directions (e.g. left, right, front, back), but struggle with the multi-dimensional spatial reasoning necessary for human-like understanding and real-world applications. To address this gap, we develop SPHERE (Spatial Perception and Hierarchical Evaluation of REasoning), a hierarchical evaluation framework supported by a new human-annotated dataset. SPHERE systematically probes models across increasing levels of complexity, from fundamental skills to multi-skill integration and high-level reasoning that combines spatial, visual, and logical understanding. Benchmark evaluation of state-of-the-art models reveals significant deficiencies, especially in reasoning about distance and proximity, understanding both egocentric and allocentric perspectives, and applying spatial logic in physical contexts. These findings expose critical blind spots in existing models and underscore the need for more advanced spatial reasoning techniques, driving the development of vision-language models that align more closely with human spatial cognition. The SPHERE benchmark is available at https://github.com/zwenyu/SPHERE-VLM.

arxiv情報

著者 Wenyu Zhang,Wei En Ng,Lixin Ma,Yuwen Wang,Jungqi Zhao,Allison Koenecke,Boyang Li,Lu Wang
発行日 2025-02-28 15:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation はコメントを受け付けていません

ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration

要約

模倣学習は、ロボットの器用な操作スキルを教えるのに非常に効果的であることが証明されています。
ただし、通常、大量の人間のデモデータに依存しているため、動的で実世界の環境でのスケーラビリティと適用性が制限されます。
このコンテキストでの重要な課題の1つは、オブジェクトの一般化です。ロボットは、「リンゴを渡す」などの1つのオブジェクトを使用してタスクを実行するように訓練されているため、スキルを「ピーチを渡す」などの意味的に類似しているが視覚的に異なるオブジェクトに転送するのに苦労しています。
同じカテゴリのものを超えた新しいオブジェクトへの一般化のこのギャップは、エンドツーエンドの視覚運動ポリシー学習に関する以前の作業ではまだ適切に対処されていません。
このホワイトペーパーでは、\ textBf {objectVla}と呼ばれるVision-Language-active(VLA)モデルを通じてオブジェクトの一般化を達成するためのシンプルで効果的なアプローチを紹介します。
私たちのモデルにより、ロボットは、新しいターゲットオブジェクトごとに明示的な人間のデモを必要とせずに、学習スキルを新しいオブジェクトに一般化することができます。
ビジョン言語ペアデータを活用することにより、この方法は、ターゲットオブジェクトに関する知識を注入するための軽量でスケーラブルな方法を提供し、オブジェクトと目的のアクションの間に暗黙のリンクを確立します。
実際のロボットプラットフォームでObjectVlaを評価し、トレーニング中に見られないオブジェクトを選択する際に64 \%の成功率で100の新しいオブジェクトを介して一般化する能力を実証します。
さらに、スマートフォンを使用していくつかの画像をキャプチャし、事前に訓練されたモデルを微調整するために、VLAモデルのオブジェクトの一般化を強化するためのよりアクセスしやすい方法を提案します。
これらの結果は、オブジェクトレベルの一般化を可能にし、広範な人間のデモンストレーションの必要性を減らすためのアプローチの有効性を強調し、より柔軟でスケーラブルなロボット学習システムへの道を開きます。

要約(オリジナル)

Imitation learning has proven to be highly effective in teaching robots dexterous manipulation skills. However, it typically relies on large amounts of human demonstration data, which limits its scalability and applicability in dynamic, real-world environments. One key challenge in this context is object generalization, where a robot trained to perform a task with one object, such as ‘hand over the apple,’ struggles to transfer its skills to a semantically similar but visually different object, such as ‘hand over the peach.’ This gap in generalization to new objects beyond those in the same category has yet to be adequately addressed in previous work on end-to-end visuomotor policy learning. In this paper, we present a simple yet effective approach for achieving object generalization through Vision-Language-Action (VLA) models, referred to as \textbf{ObjectVLA}. Our model enables robots to generalize learned skills to novel objects without requiring explicit human demonstrations for each new target object. By leveraging vision-language pair data, our method provides a lightweight and scalable way to inject knowledge about the target object, establishing an implicit link between the object and the desired action. We evaluate ObjectVLA on a real robotic platform, demonstrating its ability to generalize across 100 novel objects with a 64\% success rate in selecting objects not seen during training. Furthermore, we propose a more accessible method for enhancing object generalization in VLA models, using a smartphone to capture a few images and fine-tune the pre-trained model. These results highlight the effectiveness of our approach in enabling object-level generalization and reducing the need for extensive human demonstrations, paving the way for more flexible and scalable robotic learning systems.

arxiv情報

著者 Minjie Zhu,Yichen Zhu,Jinming Li,Zhongyi Zhou,Junjie Wen,Xiaoyu Liu,Chaomin Shen,Yaxin Peng,Feifei Feng
発行日 2025-02-28 15:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration はコメントを受け付けていません

DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture

要約

拡散モデル(DMS)は、画像、ビデオなど、さまざまなドメインにわたって並外れた生成機能を実証しています。
それらの有効性に貢献する重要な要因は、トレーニング中に使用されるデータの大量と品質です。
ただし、主流のDMSは、ますます大量のデータを消費するようになりました。
たとえば、安定した拡散モデルのトレーニングには、数十億の画像テキストペアが必要です。
この膨大なデータ要件は、高いデータ収集コストとストレージ費用のために、大規模なDMをトレーニングするために大きな課題をもたらします。
このデータの負担を軽減するために、新しいシナリオを提案します。既存のDMSをデータソースとして使用して、あらゆるアーキテクチャで新しいDMSをトレーニングします。
このシナリオは、DMSの生成能力がデータのない方法で新しいものに転送される拡散モデル(DKDM)のデータフリーナレッジ蒸留と呼びます。
この課題に取り組むために、2つの主な貢献をします。
まず、データへのアクセスを必要とせずに、蒸留を介して新しいDMのトレーニングを可能にするDKDM目標を導入します。
第二に、既存のDMSから時間領域の知識を効率的に抽出する動的な反復蒸留方法を開発し、長期にわたる生成プロセスを必要とせずにトレーニングデータの直接検索を可能にします。
私たちの知る限り、私たちはこのシナリオを最初に探求しました。
実験結果は、データフリーのアプローチが競争力のある生成パフォーマンスを達成するだけでなく、場合によっては、データセット全体でトレーニングされたモデルよりも優れていることを示しています。

要約(オリジナル)

Diffusion models (DMs) have demonstrated exceptional generative capabilities across various domains, including image, video, and so on. A key factor contributing to their effectiveness is the high quantity and quality of data used during training. However, mainstream DMs now consume increasingly large amounts of data. For example, training a Stable Diffusion model requires billions of image-text pairs. This enormous data requirement poses significant challenges for training large DMs due to high data acquisition costs and storage expenses. To alleviate this data burden, we propose a novel scenario: using existing DMs as data sources to train new DMs with any architecture. We refer to this scenario as Data-Free Knowledge Distillation for Diffusion Models (DKDM), where the generative ability of DMs is transferred to new ones in a data-free manner. To tackle this challenge, we make two main contributions. First, we introduce a DKDM objective that enables the training of new DMs via distillation, without requiring access to the data. Second, we develop a dynamic iterative distillation method that efficiently extracts time-domain knowledge from existing DMs, enabling direct retrieval of training data without the need for a prolonged generative process. To the best of our knowledge, we are the first to explore this scenario. Experimental results demonstrate that our data-free approach not only achieves competitive generative performance but also, in some instances, outperforms models trained with the entire dataset.

arxiv情報

著者 Qianlong Xiang,Miao Zhang,Yuzhang Shang,Jianlong Wu,Yan Yan,Liqiang Nie
発行日 2025-02-28 15:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture はコメントを受け付けていません

Same accuracy, twice as fast: continuous training surpasses retraining from scratch

要約

継続的な学習は、以前に学習したデータでパフォーマンスを失うことなく、モデルが新しいデータセットに適応できるようにすることを目的としています。
ただし、多くの実際のシナリオでは、古いデータと新しいデータの両方にアクセスできます。
このような場合、両方のデータセットでの良好なパフォーマンスは、通常、以前のデータでトレーニングされたモデルを放棄し、両方のデータセットでゼロから新しいモデルを再トレーニングすることにより達成されます。
ゼロからのこのトレーニングは、計算的に高価です。
対照的に、以前に訓練されたモデルと古いデータを活用する方法は、計算コストを大幅に削減できるため、調査に値します。
私たちの評価フレームワークは、トレーニングのパフォーマンスをゼロから維持またはそれを超えながら、そのような方法の計算節約を定量化します。
それぞれが計算コストの削減に貢献できる、初期化、正則化、データ選択、ハイパーパラメーターなどの主要な最適化の側面を特定します。
各側面について、既に大幅な計算節約をもたらす効果的な第1段階の方法を提案します。
これらの方法を組み合わせることにより、さまざまなコンピュータービジョンタスクにわたって計算時間が最大2.7倍削減され、この分野のさらなる進歩の可能性を強調します。

要約(オリジナル)

Continual learning aims to enable models to adapt to new datasets without losing performance on previously learned data, often assuming that prior data is no longer available. However, in many practical scenarios, both old and new data are accessible. In such cases, good performance on both datasets is typically achieved by abandoning the model trained on the previous data and re-training a new model from scratch on both datasets. This training from scratch is computationally expensive. In contrast, methods that leverage the previously trained model and old data are worthy of investigation, as they could significantly reduce computational costs. Our evaluation framework quantifies the computational savings of such methods while maintaining or exceeding the performance of training from scratch. We identify key optimization aspects — initialization, regularization, data selection, and hyper-parameters — that can each contribute to reducing computational costs. For each aspect, we propose effective first-step methods that already yield substantial computational savings. By combining these methods, we achieve up to 2.7x reductions in computation time across various computer vision tasks, highlighting the potential for further advancements in this area.

arxiv情報

著者 Eli Verwimp,Guy Hacohen,Tinne Tuytelaars
発行日 2025-02-28 15:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Same accuracy, twice as fast: continuous training surpasses retraining from scratch はコメントを受け付けていません

Open-Source Manually Annotated Vocal Tract Database for Automatic Segmentation from 3D MRI Using Deep Learning: Benchmarking 2D and 3D Convolutional and Transformer Networks

要約

さまざまな音声および音声アプリケーションには、磁気共鳴イメージング(MRI)データからの声帯の正確なセグメンテーションが不可欠です。
手動のセグメンテーションは、時間がかかり、エラーの影響を受けやすいです。
この研究の目的は、3D MRIからの自動声帯セグメンテーションに対する深い学習アルゴリズムの有効性を評価することを目的としています。

要約(オリジナル)

Accurate segmentation of the vocal tract from magnetic resonance imaging (MRI) data is essential for various voice and speech applications. Manual segmentation is time intensive and susceptible to errors. This study aimed to evaluate the efficacy of deep learning algorithms for automatic vocal tract segmentation from 3D MRI.

arxiv情報

著者 Subin Erattakulangara,Karthika Kelat,Katie Burnham,Rachel Balbi,Sarah E. Gerard,David Meyer,Sajan Goud Lingala
発行日 2025-02-28 15:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | Open-Source Manually Annotated Vocal Tract Database for Automatic Segmentation from 3D MRI Using Deep Learning: Benchmarking 2D and 3D Convolutional and Transformer Networks はコメントを受け付けていません

A Review on Generative AI For Text-To-Image and Image-To-Image Generation and Implications To Scientific Images

要約

このレビューでは、生成AIの範囲内のテキストから画像への最先端の生成と画像から画像の生成を調査します。
変分自動エンコーダー、生成的敵対的ネットワーク、拡散モデルの3つの顕著なアーキテクチャの比較分析を提供します。
それぞれについて、特に科学的なイメージの理解のために、コアの概念、建築革新、実用的な強みと制限を解明します。
最後に、この急速に進化する分野における重要なオープンな課題と潜在的な将来の研究の方向性について説明します。

要約(オリジナル)

This review surveys the state-of-the-art in text-to-image and image-to-image generation within the scope of generative AI. We provide a comparative analysis of three prominent architectures: Variational Autoencoders, Generative Adversarial Networks and Diffusion Models. For each, we elucidate core concepts, architectural innovations, and practical strengths and limitations, particularly for scientific image understanding. Finally, we discuss critical open challenges and potential future research directions in this rapidly evolving field.

arxiv情報

著者 Zineb Sordo,Eric Chagnon,Daniela Ushizima
発行日 2025-02-28 15:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Review on Generative AI For Text-To-Image and Image-To-Image Generation and Implications To Scientific Images はコメントを受け付けていません

Equivariant Denoisers for Image Restoration

要約

画像修復の重要な要素の1つは、クリーン画像に関する現実的な事前の事前を定義して、観測内の欠落情報を完成させることです。
最先端の修復方法は、この前のニューラルネットワークに依存しています。
さらに、典型的な画像分布は、回転やフリップなどのいくつかの変換セットに不変です。
ただし、ほとんどの深いアーキテクチャは、不変の画像分布を表すように設計されていません。
最近の作品は、プラグアンドプレイのパラダイムに等量性特性を含めることにより、この困難を克服することを提案しています。
この作業では、equivariant noiseと確率的最適化に基づいて、除去(ERED)によるequivariant Remulizationという名前の統一されたフレームワークを提案します。
このアルゴリズムの収束を分析し、その実際の利点について説明します。

要約(オリジナル)

One key ingredient of image restoration is to define a realistic prior on clean images to complete the missing information in the observation. State-of-the-art restoration methods rely on a neural network to encode this prior. Moreover, typical image distributions are invariant to some set of transformations, such as rotations or flips. However, most deep architectures are not designed to represent an invariant image distribution. Recent works have proposed to overcome this difficulty by including equivariance properties within a Plug-and-Play paradigm. In this work, we propose a unified framework named Equivariant Regularization by Denoising (ERED) based on equivariant denoisers and stochastic optimization. We analyze the convergence of this algorithm and discuss its practical benefit.

arxiv情報

著者 Marien Renaud,Arthur Leclaire,Nicolas Papadakis
発行日 2025-02-28 15:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, stat.ML | Equivariant Denoisers for Image Restoration はコメントを受け付けていません

Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification

要約

目に見える侵入者の再識別(VI-REID)は、捜索救助、インフラ保護、夜間監視などのアプリケーションで重要な役割を果たします。
ただし、モダリティの不一致、照明の変化、頻繁な閉塞により、重大な課題に直面しています。
これらの障害を克服するために、Adaptive Modality Interaction Networkである\ TextBF {Aminet}を提案します。
AMINETは、マルチ粒度機能の抽出を採用して、全身画像と上半身の両方の画像から包括的なID属性をキャプチャし、咬合と背景乱れに対する堅牢性を向上させます。
このモデルは、深いモーダルおよびクロスモーダルアラインメントのインタラクティブな機能融合戦略を統合し、一般化を強化し、RGB-IRモダリティギャップを効果的に橋渡しします。
さらに、Aminetは、堅牢で照明不変の特徴抽出のために位相一致を利用し、適応型マルチスケールカーネルMMDを組み込んで、さまざまなスケール全体の特徴分布を調整します。
ベンチマークデータセットでの広範な実験は、当社のアプローチの有効性を示しており、Sysu-MM01でランク1の精度74.75 \%$を達成し、ベースラインを$ 7.93 \%$で超えて、現在の最先端を3.95 \%$で上回っています。

要約(オリジナル)

Visible-Infrared Person Re-Identification (VI-ReID) plays a crucial role in applications such as search and rescue, infrastructure protection, and nighttime surveillance. However, it faces significant challenges due to modality discrepancies, varying illumination, and frequent occlusions. To overcome these obstacles, we propose \textbf{AMINet}, an Adaptive Modality Interaction Network. AMINet employs multi-granularity feature extraction to capture comprehensive identity attributes from both full-body and upper-body images, improving robustness against occlusions and background clutter. The model integrates an interactive feature fusion strategy for deep intra-modal and cross-modal alignment, enhancing generalization and effectively bridging the RGB-IR modality gap. Furthermore, AMINet utilizes phase congruency for robust, illumination-invariant feature extraction and incorporates an adaptive multi-scale kernel MMD to align feature distributions across varying scales. Extensive experiments on benchmark datasets demonstrate the effectiveness of our approach, achieving a Rank-1 accuracy of $74.75\%$ on SYSU-MM01, surpassing the baseline by $7.93\%$ and outperforming the current state-of-the-art by $3.95\%$.

arxiv情報

著者 Yuheng Jia,Wesley Armour
発行日 2025-02-28 15:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification はコメントを受け付けていません

Distilling foundation models for robust and efficient models in digital pathology

要約

近年、デジタル病理のための基礎モデル(FM)の出現は、トレーニング前のデータセットとモデルサイズのスケーリングに大きく依存しており、大規模で強力なモデルを生み出しています。
その結果、多様なダウンストリームタスクのパフォーマンスが向上しましたが、計算コストと推論時間の増加も導入しました。
この作業では、大きな基礎モデルの蒸留をより小さなファンデーションモデルに探り、パラメーターの数を数桁削減します。
蒸留技術を活用した蒸留モデルであるH0-MINIは、推論コストを大幅に削減して、大きなFMSにほぼ同等のパフォーマンスを達成します。
いくつかのパブリックベンチマークで評価され、EVAベンチマークで5位で3位を達成します。
さらに、Plismデータセットで実施された堅牢性分析は、蒸留モデルが染色条件とスキャン条件の変動に対して優れた堅牢性に達し、他の最新モデルを大幅に上回ることを示しています。
これにより、パフォーマンスを損なうことなく、デジタル病理の軽量で堅牢なモデルを設計するための新しい視点が開かれます。

要約(オリジナル)

In recent years, the advent of foundation models (FM) for digital pathology has relied heavily on scaling the pre-training datasets and the model size, yielding large and powerful models. While it resulted in improving the performance on diverse downstream tasks, it also introduced increased computational cost and inference time. In this work, we explore the distillation of a large foundation model into a smaller one, reducing the number of parameters by several orders of magnitude. Leveraging distillation techniques, our distilled model, H0-mini, achieves nearly comparable performance to large FMs at a significantly reduced inference cost. It is evaluated on several public benchmarks, achieving 3rd place on the HEST benchmark and 5th place on the EVA benchmark. Additionally, a robustness analysis conducted on the PLISM dataset demonstrates that our distilled model reaches excellent robustness to variations in staining and scanning conditions, significantly outperforming other state-of-the art models. This opens new perspectives to design lightweight and robust models for digital pathology, without compromising on performance.

arxiv情報

著者 Alexandre Filiot,Nicolas Dop,Oussama Tchita,Auriane Riou,Rémy Dubois,Thomas Peeters,Daria Valter,Marin Scalbert,Charlie Saillard,Geneviève Robin,Antoine Olivier
発行日 2025-02-28 15:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, I.4.9 | Distilling foundation models for robust and efficient models in digital pathology はコメントを受け付けていません

HQColon: A Hybrid Interactive Machine Learning Pipeline for High Quality Colon Labeling and Segmentation

要約

高解像度の結腸セグメンテーションは、デジタル双子や個別化医療などの臨床および研究アプリケーションにとって重要です。
ただし、主要なオープンソースの腹部セグメンテーションツールであるTotalSegmentatorは、複雑で可変的な形状を持つ結腸の正確さに苦しんでおり、時間をかけたラベル付けを必要とします。
ここでは、最初の完全自動高解像度の結腸セグメンテーション法を紹介します。
それを開発するために、最初に、領域の成長とインタラクティブな機械学習を組み合わせて、CTコロノグラフィ(CTC)画像のコロンに効率的かつ正確にラベルを付けるパイプラインを使用して高解像度のコロンデータセットを作成しました。
435のラベル付きCTC画像で構成される生成されたデータセットに基づいて、完全に自動コロンセグメンテーションのためにNNU-NETモデルをトレーニングしました。
当社の完全自動モデルは、平均対称表面距離が0.2 mm(トータルセグメントターから4.0 mm)と1.0 mmの95パーセンタイルのハウドルフ距離(トータルセグメーターから18 mm)の距離を達成しました。
セグメンテーションの精度は、TotalSegmentatorを大幅に上回ります。
トレーニングされたモデルとパイプラインコードを共有し、高解像度のコロンセグメンテーションのための最初で唯一のオープンソースツールを提供します。
さらに、公開されている高解像度のコロンラベルの大規模なデータセットを作成しました。

要約(オリジナル)

High-resolution colon segmentation is crucial for clinical and research applications, such as digital twins and personalized medicine. However, the leading open-source abdominal segmentation tool, TotalSegmentator, struggles with accuracy for the colon, which has a complex and variable shape, requiring time-intensive labeling. Here, we present the first fully automatic high-resolution colon segmentation method. To develop it, we first created a high resolution colon dataset using a pipeline that combines region growing with interactive machine learning to efficiently and accurately label the colon on CT colonography (CTC) images. Based on the generated dataset consisting of 435 labeled CTC images we trained an nnU-Net model for fully automatic colon segmentation. Our fully automatic model achieved an average symmetric surface distance of 0.2 mm (vs. 4.0 mm from TotalSegmentator) and a 95th percentile Hausdorff distance of 1.0 mm (vs. 18 mm from TotalSegmentator). Our segmentation accuracy substantially surpasses TotalSegmentator. We share our trained model and pipeline code, providing the first and only open-source tool for high-resolution colon segmentation. Additionally, we created a large-scale dataset of publicly available high-resolution colon labels.

arxiv情報

著者 Martina Finocchiaro,Ronja Stern,Abraham George Smith,Jens Petersen,Kenny Erleben,Melanie Ganz
発行日 2025-02-28 15:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | HQColon: A Hybrid Interactive Machine Learning Pipeline for High Quality Colon Labeling and Segmentation はコメントを受け付けていません