Self-supervised conformal prediction for uncertainty quantification in Poisson imaging problems

要約

画像の復元の問題はしばしば不適切であり、再構築された画像の重大な不確実性をもたらします。
この不確実性を正確に定量化することは、再構築された画像の信頼できる解釈に不可欠です。
ただし、画像の復元方法には不確実性の定量化能力が欠けていることがよくあります。
コンフォーマル予測は、正確な不確実性の定量化推定値を備えた画像修復方法を強化するための厳密なフレームワークを提供しますが、通常、キャリブレーションには豊富なグラウンドトゥルースデータが必要です。
この論文では、ポアソンイメージングの問題に関する自己監視されたコンフォーマル予測方法を提示し、ポアソンが不偏リスク推定器を活用して、グラウンドトゥルースデータの必要性を排除します。
結果として得られる自己調整のコンフォーマル予測アプローチは、条件が整っていないポアソン線形イメージングの問題に適用でき、測定データで直接訓練された最新の自己監視画像修復技術と組み合わせると特に効果的です。
提案された方法は、画像の除去と脱生の数値実験を通じて実証されています。
そのパフォーマンスは、グラウンドトゥルースデータに依存する監視されたコンフォーマル予測方法に匹敵します。

要約(オリジナル)

Image restoration problems are often ill-posed, leading to significant uncertainty in reconstructed images. Accurately quantifying this uncertainty is essential for the reliable interpretation of reconstructed images. However, image restoration methods often lack uncertainty quantification capabilities. Conformal prediction offers a rigorous framework to augment image restoration methods with accurate uncertainty quantification estimates, but it typically requires abundant ground truth data for calibration. This paper presents a self-supervised conformal prediction method for Poisson imaging problems which leverages Poisson Unbiased Risk Estimator to eliminate the need for ground truth data. The resulting self-calibrating conformal prediction approach is applicable to any Poisson linear imaging problem that is ill-conditioned, and is particularly effective when combined with modern self-supervised image restoration techniques trained directly on measurement data. The proposed method is demonstrated through numerical experiments on image denoising and deblurring; its performance are comparable to supervised conformal prediction methods relying on ground truth data.

arxiv情報

著者 Bernardin Tamo Amougou,Marcelo Pereyra,Barbara Pascal
発行日 2025-02-26 14:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP | Self-supervised conformal prediction for uncertainty quantification in Poisson imaging problems はコメントを受け付けていません

EGR-Net: A Novel Embedding Gramian Representation CNN for Intelligent Fault Diagnosis

要約

特徴抽出は、回転機械のインテリジェントな断層診断において重要です。
複雑な1次元(1D)振動信号を単純なテクスチャを持つ2次元(2D)画像に変換することにより、畳み込みニューラルネットワーク(CNN)は断層機能を視覚的に認識および学習することが簡単です。
ただし、画像として1D信号をエンコードするための既存の表現方法には、複雑な計算と低分離性など、2つの主要な問題があります。
一方、既存の2D-CNN障害診断方法は、変換プロセスのために唯一の入力が依然として避けられない情報損失に悩まされているため、2D画像を取得します。
上記の問題を考慮すると、このペーパーでは、グラミアン表現(EGR)の埋め込みと呼ばれる新しい1Dから2Dへの変換方法を提案します。これは、計算が簡単で、適切な分離性を示しています。
EGRでは、1D信号が埋め込み空間に投影され、振動信号の固有の周期性がキャプチャされ、生の信号に含まれる誤った特性が明らかになります。
第二に、変換された画像の単一入力を使用した既存のCNNモデルの情報損失問題を目的としているEGR-NETと呼ばれる二重分岐EGRベースのCNNは、生の信号機能マップと対応するEGRの両方から誤った機能を学習するために提案されています。
ブリッジ接続は、2つのブランチ間の機能学習の相互作用を改善するように設計されています。
広く使用されているオープンドメインギアボックスデータセットとベアリングデータセットは、提案された方法の有効性と効率を検証するために使用されます。
EGR-NETは、従来のアプローチおよび最先端のアプローチと比較され、結果は、提案された方法がパフォーマンスを向上させることができることを示しています。

要約(オリジナル)

Feature extraction is crucial in intelligent fault diagnosis of rotating machinery. It is easier for convolutional neural networks(CNNs) to visually recognize and learn fault features by converting the complicated one-dimensional (1D) vibrational signals into two-dimensional (2D) images with simple textures. However, the existing representation methods for encoding 1D signals as images have two main problems, including complicated computation and low separability. Meanwhile, the existing 2D-CNN fault diagnosis methods taking 2D images as the only inputs still suffer from the inevitable information loss because of the conversion process. Considering the above issues, this paper proposes a new 1D-to-2D conversion method called Embedding Gramian Representation (EGR), which is easy to calculate and shows good separability. In EGR, 1D signals are projected in the embedding space and the intrinsic periodicity of vibrational signals is captured enabling the faulty characteristics contained in raw signals to be uncovered. Second, aiming at the information loss problem of existing CNN models with the single input of converted images, a double-branch EGR-based CNN, called EGR-Net, is proposed to learn faulty features from both raw signal feature maps and their corresponding EGRs. The bridge connection is designed to improve the feature learning interaction between the two branches. Widely used open domain gearbox dataset and bearing dataset are used to verify the effectiveness and efficiency of the proposed methods. EGR-Net is compared with traditional and state-of-the-art approaches, and the results show that the proposed method can deliver enhanced performance.

arxiv情報

著者 Linshan Jia
発行日 2025-02-26 15:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | EGR-Net: A Novel Embedding Gramian Representation CNN for Intelligent Fault Diagnosis はコメントを受け付けていません

HDM: Hybrid Diffusion Model for Unified Image Anomaly Detection

要約

画像の異常検出は、産業品質検査や医療イメージングなどのアプリケーションで重要な役割を果たし、製品の品質とシステムの信頼性の向上に直接貢献します。
ただし、既存の方法は、しばしば複雑で多様な異常パターンと格闘しています。
特に、生成タスクと識別タスクの分離は、異常なサンプル生成と異常領域の検出との効果的な調整を制限します。
これらの課題に対処するために、生成と差別を統一されたフレームワークに統合する新しいハイブリッド拡散モデル(HDM)を提案します。
モデルは、拡散異常生成モジュール(DAGM)、拡散識別モジュール(DDM)、および確率最適化モジュール(POM)の3つの重要なモジュールで構成されています。
Dagmは現実的で多様な異常サンプルを生成し、代表性を改善します。
次に、DDMは逆拡散プロセスを適用して、生成されたサンプルと通常のサンプルの違いをキャプチャし、確率分布に基づいて正確な異常領域の検出と局在化を可能にします。
POMは、生成段階と識別フェーズの両方で確率分布を改良し、高品質のサンプルがトレーニングに使用されるようにします。
複数の産業画像データセットでの広範な実験は、この方法が最先端のアプローチよりも優れていることを示しており、Aurocで測定されたように、画像レベルとピクセルレベルの異常検出性能の両方を大幅に改善します。

要約(オリジナル)

Image anomaly detection plays a vital role in applications such as industrial quality inspection and medical imaging, where it directly contributes to improving product quality and system reliability. However, existing methods often struggle with complex and diverse anomaly patterns. In particular, the separation between generation and discrimination tasks limits the effective coordination between anomaly sample generation and anomaly region detection. To address these challenges, we propose a novel hybrid diffusion model (HDM) that integrates generation and discrimination into a unified framework. The model consists of three key modules: the Diffusion Anomaly Generation Module (DAGM), the Diffusion Discriminative Module (DDM), and the Probability Optimization Module (POM). DAGM generates realistic and diverse anomaly samples, improving their representativeness. DDM then applies a reverse diffusion process to capture the differences between generated and normal samples, enabling precise anomaly region detection and localization based on probability distributions. POM refines the probability distributions during both the generation and discrimination phases, ensuring high-quality samples are used for training. Extensive experiments on multiple industrial image datasets demonstrate that our method outperforms state-of-the-art approaches, significantly improving both image-level and pixel-level anomaly detection performance, as measured by AUROC.

arxiv情報

著者 Zekang Weng,Jinjin Shi,Jinwei Wang,Zeming Han
発行日 2025-02-26 15:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HDM: Hybrid Diffusion Model for Unified Image Anomaly Detection はコメントを受け付けていません

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

要約

単眼深度推定(MDE)は、単一のRGB画像からシーンの深さを予測することを目的としており、3Dシーンの理解に重要な役割を果たします。
ゼロショットMDEレバレッジの最近の進歩正規化された深さ表現と蒸留ベースの学習により、多様なシーン全体の一般化を改善しました。
ただし、グローバルな正規化に依存して蒸留のための現在の深さ正規化方法は、騒々しい擬似ラベルを増幅し、蒸留の有効性を低下させる可能性があります。
このホワイトペーパーでは、擬似ラベル蒸留に対するさまざまな深度正規化戦略の影響を体系的に分析します。
調査結果に基づいて、クロスコンテキスト蒸留を提案します。この蒸留は、グローバルおよびローカルの深さの手がかりを統合して、擬似ラベルの品質を向上させます。
さらに、さまざまな深度推定モデルの補完的な強度を活用して、より堅牢で正確な深度予測につながるマルチティーチャー蒸留フレームワークを導入します。
ベンチマークデータセットでの広範な実験は、私たちのアプローチが、定量的および定性的に最新の方法を大幅に上回ることを示しています。

要約(オリジナル)

Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.

arxiv情報

著者 Xiankang He,Dongyan Guo,Hongji Li,Ruibo Li,Ying Cui,Chi Zhang
発行日 2025-02-26 15:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator はコメントを受け付けていません

A Lightweight and Extensible Cell Segmentation and Classification Model for Whole Slide Images

要約

デジタル病理学における臨床的に有用な細胞レベル分析ツールの開発ツールの開発は、データセットの粒度の制限、一貫性のない注釈、高い計算需要、および新しい技術をワークフローに統合する困難により、依然として困難です。
これらの問題に対処するために、軽量で拡張可能な細胞セグメンテーションと分類モデルを作成することにより、データの品質、モデルのパフォーマンス、使いやすさを向上させるソリューションを提案します。
まず、クロスリラベルを介してデータラベルを更新して、PannukeとMonusacの注釈を改良し、7つの異なるセルタイプを持つ統一されたデータセットを作成します。
次に、H-Optimus Foundationモデルを固定エンコーダーとして活用して、同時セグメンテーションと分類タスクの機能表現を改善します。
第三に、基礎モデルの計算需要に対処するために、知識を蒸留して、モデルのサイズと複雑さを減らしながら、同等のパフォーマンスを維持します。
最後に、蒸留モデルを広く使用されているオープンソースのデジタル病理プラットフォームであるQupathに統合します。
結果は、CNNベースのモデルと比較して、H-Optimusベースのモデルを使用して、セグメンテーションと分類パフォーマンスの改善を示しています。
具体的には、平均$ r^2 $は0.575から0.871に改善され、平均$ PQ $スコアは0.450から0.492に改善され、実際のセルカウントとセグメンテーションの品質が向上したことを示しています。
蒸留モデルは同等のパフォーマンスを維持しながらパラメーターカウントを48倍削減します。計算の複雑さを減らし、ワークフローに統合することにより、このアプローチは診断に大きな影響を与え、病理学者のワークロードを減らし、転帰を改善する可能性があります。
この方法は可能性を示していますが、臨床展開の前に広範な検証が必要です。

要約(オリジナル)

Developing clinically useful cell-level analysis tools in digital pathology remains challenging due to limitations in dataset granularity, inconsistent annotations, high computational demands, and difficulties integrating new technologies into workflows. To address these issues, we propose a solution that enhances data quality, model performance, and usability by creating a lightweight, extensible cell segmentation and classification model. First, we update data labels through cross-relabeling to refine annotations of PanNuke and MoNuSAC, producing a unified dataset with seven distinct cell types. Second, we leverage the H-Optimus foundation model as a fixed encoder to improve feature representation for simultaneous segmentation and classification tasks. Third, to address foundation models’ computational demands, we distill knowledge to reduce model size and complexity while maintaining comparable performance. Finally, we integrate the distilled model into QuPath, a widely used open-source digital pathology platform. Results demonstrate improved segmentation and classification performance using the H-Optimus-based model compared to a CNN-based model. Specifically, average $R^2$ improved from 0.575 to 0.871, and average $PQ$ score improved from 0.450 to 0.492, indicating better alignment with actual cell counts and enhanced segmentation quality. The distilled model maintains comparable performance while reducing parameter count by a factor of 48. By reducing computational complexity and integrating into workflows, this approach may significantly impact diagnostics, reduce pathologist workload, and improve outcomes. Although the method shows promise, extensive validation is necessary prior to clinical deployment.

arxiv情報

著者 Nikita Shvetsov,Thomas K. Kilvaer,Masoud Tafavvoghi,Anders Sildnes,Kajsa Møllersen,Lill-Tove Rasmussen Busund,Lars Ailo Bongo
発行日 2025-02-26 15:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 | A Lightweight and Extensible Cell Segmentation and Classification Model for Whole Slide Images はコメントを受け付けていません

Arbitrary Volumetric Refocusing of Dense and Sparse Light Fields

要約

4次元光場(LF)は、シーンのテクスチャ情報のみをキャプチャする2次元画像とは対照的に、シーンのテクスチャー情報と幾何学的情報の両方をキャプチャします。
キャプチャ後の再入院は、キャプチャされた幾何学的情報によって有効なLFSのエキサイティングなアプリケーションです。
以前に提案されていたLFの再焦点化方法は、深さ範囲に対応するシーンの単一平面領域または体積領域の再焦点にほとんど制限されており、同じ深さ範囲を持つ焦点と焦点の範囲外領域を同時に生成することはできません。
このホワイトペーパーでは、密集したLFまたはまばらなLFの複数の任意の平面または体積領域を同時に焦点を合わせて、エンドツーエンドのパイプラインを提案します。
典型的なシフトアンドサム法でピクセル依存シフトを使用して、LFを再焦点を合わせます。
ピクセル依存シフトにより、LFの各ピクセルを独立して再焦点を合わせることができます。
まばらなLFSの場合、Shift-and-Sumメソッドは、空間のアンダーサンプリングのためにゴーストアーティファクトを導入します。
U-Netアーキテクチャに基づいた深い学習モデルを使用して、ゴーストアーティファクトをほぼ完全に排除します。
いくつかのLFデータセットで得られた実験結果は、提案された方法の有効性を確認します。
特に、密なLFSと比較してデータの20%しか持っていないにもかかわらず、0.9を超える構造類似性インデックスの提案に再焦点を合わせたまばらなLFS。

要約(オリジナル)

A four-dimensional light field (LF) captures both textural and geometrical information of a scene in contrast to a two-dimensional image that captures only the textural information of a scene. Post-capture refocusing is an exciting application of LFs enabled by the geometric information captured. Previously proposed LF refocusing methods are mostly limited to the refocusing of single planar or volumetric region of a scene corresponding to a depth range and cannot simultaneously generate in-focus and out-of-focus regions having the same depth range. In this paper, we propose an end-to-end pipeline to simultaneously refocus multiple arbitrary planar or volumetric regions of a dense or a sparse LF. We employ pixel-dependent shifts with the typical shift-and-sum method to refocus an LF. The pixel-dependent shifts enables to refocus each pixel of an LF independently. For sparse LFs, the shift-and-sum method introduces ghosting artifacts due to the spatial undersampling. We employ a deep learning model based on U-Net architecture to almost completely eliminate the ghosting artifacts. The experimental results obtained with several LF datasets confirm the effectiveness of the proposed method. In particular, sparse LFs refocused with the proposed method archive structural similarity index higher than 0.9 despite having only 20% of data compared to dense LFs.

arxiv情報

著者 Tharindu Samarakoon,Kalana Abeywardena,Chamira U. S. Edussooriya
発行日 2025-02-26 15:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Arbitrary Volumetric Refocusing of Dense and Sparse Light Fields はコメントを受け付けていません

ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding

要約

具体化されたインテリジェンスでは、エージェントが言語の指示に基づいて3D環境とリアルタイムでやり取りする必要があります。
このドメインの基本的なタスクは、エゴ中心の3D視覚接地です。
ただし、RGB-D画像からレンダリングされたポイントクラウドは、大量の冗長な背景データと固有のノイズを保持します。どちらもターゲット領域のマニホールド構造を妨げる可能性があります。
既存のポイントクラウド強化方法は、多くの場合、マニホールドを改善するために退屈なプロセスを必要としますが、これはリアルタイムのタスクには適していません。
マルチモーダルタスクに適したプロキシ変換を提案して、ポイントクラウドマニホールドを効率的に改善します。
私たちの方法は、最初に変形可能なポイントクラスタリングを活用して、ターゲット領域のポイントクラウドサブマニホールドを識別します。
次に、マルチモーダルプロキシを利用してポイントクラウド変換をガイドするプロキシ注意モジュールを提案します。
プロキシの注意に基づいて構築されたサブマニホールド変換生成モジュールを設計します。ここでは、テキスト情報がグローバルに異なるサブマニホールドの翻訳ベクトルを導き、ターゲット領域の相対的な空間的関係を最適化します。
同時に、画像情報は各サブマニホールド内の線形変換をガイドし、ターゲット領域のローカルポイントクラウドマニホールドを改良します。
広範な実験は、プロキシ変換が既存のすべての方法を大幅に上回り、簡単なターゲットで7.49%、ハードターゲットで4.60%の印象的な改善を達成し、注意ブロックの計算オーバーヘッドを40.6%削減することを示しています。
これらの結果は、私たちのアプローチの有効性と堅牢性を示し、自我中心の3D視覚接地に新しいソタを確立します。

要約(オリジナル)

Embodied intelligence requires agents to interact with 3D environments in real time based on language instructions. A foundational task in this domain is ego-centric 3D visual grounding. However, the point clouds rendered from RGB-D images retain a large amount of redundant background data and inherent noise, both of which can interfere with the manifold structure of the target regions. Existing point cloud enhancement methods often require a tedious process to improve the manifold, which is not suitable for real-time tasks. We propose Proxy Transformation suitable for multimodal task to efficiently improve the point cloud manifold. Our method first leverages Deformable Point Clustering to identify the point cloud sub-manifolds in target regions. Then, we propose a Proxy Attention module that utilizes multimodal proxies to guide point cloud transformation. Built upon Proxy Attention, we design a submanifold transformation generation module where textual information globally guides translation vectors for different submanifolds, optimizing relative spatial relationships of target regions. Simultaneously, image information guides linear transformations within each submanifold, refining the local point cloud manifold of target regions. Extensive experiments demonstrate that Proxy Transformation significantly outperforms all existing methods, achieving an impressive improvement of 7.49% on easy targets and 4.60% on hard targets, while reducing the computational overhead of attention blocks by 40.6%. These results establish a new SOTA in ego-centric 3D visual grounding, showcasing the effectiveness and robustness of our approach.

arxiv情報

著者 Qihang Peng,Henry Zheng,Gao Huang
発行日 2025-02-26 15:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding はコメントを受け付けていません

Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles

要約

ポイントクラウドの表現は最近、コンピュータービジョンの分野での研究ホットスポットになり、自動運転車に利用されています。
ただし、ポイントクラウドデータ認識のためにディープラーニングネットワークを適応させることは、データセットとセンサーテクノロジーのばらつきのために困難です。
この変動性は、異なる条件下で精度を維持するための適応技術の必要性を強調しています。
このホワイトペーパーでは、ドメインに不変のポイントクラウド認識向けに設計されたマルチビュー構造畳み込みネットワーク(MSCN)を紹介します。
MSCNは、ポイントクラウドと構造集約層(SAL)からローカルコンテキストの幾何学的特徴を抽出する構造畳み込み層(SCL)で構成されています。
さらに、MSCNは、ソースドメインポイントクラウドから派生した目に見えないドメインポイントクラウドでトレーニングすることにより、特徴表現の堅牢性を高めます。
このメソッドは、ドメインに不変の機能を獲得し、さまざまなポイントクラウドデータセットで堅牢で一貫したパフォーマンスを示し、パラメーター調整を必要とせずに多様なセンサー構成との互換性を確保します。
これは、さまざまな環境で信頼性とドメインの不変機能を大幅に改善するMSCNの可能性を強調しています。
私たちのコードは、https://github.com/mlmlab/mscnで入手できます。

要約(オリジナル)

Point cloud representation has recently become a research hotspot in the field of computer vision and has been utilized for autonomous vehicles. However, adapting deep learning networks for point cloud data recognition is challenging due to the variability in datasets and sensor technologies. This variability underscores the necessity for adaptive techniques to maintain accuracy under different conditions. In this paper, we present the Multi-View Structural Convolution Network (MSCN) designed for domain-invariant point cloud recognition. MSCN comprises Structural Convolution Layers (SCL) that extract local context geometric features from point clouds and Structural Aggregation Layers (SAL) that extract and aggregate both local and overall context features from point clouds. Additionally, our MSCN enhances feature representation robustness by training with unseen domain point clouds derived from source domain point clouds. This method acquires domain-invariant features and exhibits robust, consistent performance across various point cloud datasets, ensuring compatibility with diverse sensor configurations without the need for parameter adjustments. This highlights MSCN’s potential to significantly improve the reliability and domain invariant features in different environments. Our code is available at https://github.com/MLMLab/MSCN.

arxiv情報

著者 Younggun Kim,Beomsik Cho,Seonghoon Ryoo,Soomok Lee
発行日 2025-02-26 15:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles はコメントを受け付けていません

ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration

要約

模倣学習は、ロボットの器用な操作スキルを教えるのに非常に効果的であることが証明されています。
ただし、通常、大量の人間のデモデータに依存しているため、動的で実世界の環境でのスケーラビリティと適用性が制限されます。
このコンテキストでの重要な課題の1つは、オブジェクトの一般化です。ロボットは、「リンゴを渡す」などの1つのオブジェクトを使用してタスクを実行するように訓練されているため、スキルを「ピーチを渡す」などの意味的に類似しているが視覚的に異なるオブジェクトに転送するのに苦労しています。
同じカテゴリのものを超えた新しいオブジェクトへの一般化のこのギャップは、エンドツーエンドの視覚運動ポリシー学習に関する以前の作業ではまだ適切に対処されていません。
このホワイトペーパーでは、\ textBf {objectVla}と呼ばれるVision-Language-active(VLA)モデルを通じてオブジェクトの一般化を達成するためのシンプルで効果的なアプローチを紹介します。
私たちのモデルにより、ロボットは、新しいターゲットオブジェクトごとに明示的な人間のデモを必要とせずに、学習スキルを新しいオブジェクトに一般化することができます。
ビジョン言語ペアデータを活用することにより、この方法は、ターゲットオブジェクトに関する知識を注入するための軽量でスケーラブルな方法を提供し、オブジェクトと目的のアクションの間に暗黙のリンクを確立します。
実際のロボットプラットフォームでObjectVlaを評価し、トレーニング中に見られないオブジェクトを選択する際に64 \%の成功率で100の新しいオブジェクトを介して一般化する能力を実証します。
さらに、スマートフォンを使用していくつかの画像をキャプチャし、事前に訓練されたモデルを微調整するために、VLAモデルのオブジェクトの一般化を強化するためのよりアクセスしやすい方法を提案します。
これらの結果は、オブジェクトレベルの一般化を可能にし、広範な人間のデモンストレーションの必要性を減らすためのアプローチの有効性を強調し、より柔軟でスケーラブルなロボット学習システムへの道を開きます。

要約(オリジナル)

Imitation learning has proven to be highly effective in teaching robots dexterous manipulation skills. However, it typically relies on large amounts of human demonstration data, which limits its scalability and applicability in dynamic, real-world environments. One key challenge in this context is object generalization, where a robot trained to perform a task with one object, such as ‘hand over the apple,’ struggles to transfer its skills to a semantically similar but visually different object, such as ‘hand over the peach.’ This gap in generalization to new objects beyond those in the same category has yet to be adequately addressed in previous work on end-to-end visuomotor policy learning. In this paper, we present a simple yet effective approach for achieving object generalization through Vision-Language-Action (VLA) models, referred to as \textbf{ObjectVLA}. Our model enables robots to generalize learned skills to novel objects without requiring explicit human demonstrations for each new target object. By leveraging vision-language pair data, our method provides a lightweight and scalable way to inject knowledge about the target object, establishing an implicit link between the object and the desired action. We evaluate ObjectVLA on a real robotic platform, demonstrating its ability to generalize across 100 novel objects with a 64\% success rate in selecting objects not seen during training. Furthermore, we propose a more accessible method for enhancing object generalization in VLA models, using a smartphone to capture a few images and fine-tune the pre-trained model. These results highlight the effectiveness of our approach in enabling object-level generalization and reducing the need for extensive human demonstrations, paving the way for more flexible and scalable robotic learning systems.

arxiv情報

著者 Minjie Zhu,Yichen Zhu,Jinming Li,Zhongyi Zhou,Junjie Wen,Xiaoyu Liu,Chaomin Shen,Yaxin Peng,Feifei Feng
発行日 2025-02-26 15:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration はコメントを受け付けていません

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

要約

イメージネットの前提条件-V3ネットワークで計算されたfre \ ‘echetインセプション距離(fid)は、生成モデルの最先端の評価メトリックとして広く使用されています。
Inception-V3の特徴ベクトルは、多変量ガウス分布に従い、その手段と共分散に基づいて2ワセルスタイン距離を計算すると想定しています。
FIDは、多くの画像合成タスクで実際のデータと密接に合成データと一致する程度を効果的に測定しますが、生物医学生成モデルの主な目標は、多くの場合、対応する注釈でトレーニングデータセットを濃縮することです。
この目的のために、生成モデルを評価するためのゴールドスタンダードは、合成データを分類やセグメンテーションなどのダウンストリームタスクトレーニングに組み込み、そのパフォーマンスを実用的に評価することです。
この論文では、FIDとその関連指標が分類およびセグメンテーションにおけるタスク固有の評価目標と不一致である色の眼底写真や光学コヒーレンス断層撮影など、網膜イメージングモダリティからのケースを調べます。
これらのアプリケーションの評価基準として、FIDとそのバリアントで表されるさまざまなメトリックを使用することの制限を強調し、より広範な生物医学イメージングモダリティとダウンストリームタスクでの潜在的な警告に対処します。

要約(オリジナル)

Fr\’echet Inception Distance (FID), computed with an ImageNet pretrained Inception-v3 network, is widely used as a state-of-the-art evaluation metric for generative models. It assumes that feature vectors from Inception-v3 follow a multivariate Gaussian distribution and calculates the 2-Wasserstein distance based on their means and covariances. While FID effectively measures how closely synthetic data match real data in many image synthesis tasks, the primary goal in biomedical generative models is often to enrich training datasets ideally with corresponding annotations. For this purpose, the gold standard for evaluating generative models is to incorporate synthetic data into downstream task training, such as classification and segmentation, to pragmatically assess its performance. In this paper, we examine cases from retinal imaging modalities, including color fundus photography and optical coherence tomography, where FID and its related metrics misalign with task-specific evaluation goals in classification and segmentation. We highlight the limitations of using various metrics, represented by FID and its variants, as evaluation criteria for these applications and address their potential caveats in broader biomedical imaging modalities and downstream tasks.

arxiv情報

著者 Yuli Wu,Fucheng Liu,Rüveyda Yilmaz,Henning Konermann,Peter Walter,Johannes Stegmaier
発行日 2025-02-26 16:03:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis はコメントを受け付けていません