An ocean front detection and tracking algorithm

要約

ヒストグラムベースの分散分析、リアプノフ指数、勾配のしきい値、および機械学習を含む既存のオーシャンフロント検出方法 – 重大な制限からのスーファー:不連続な出力、過剰検出、単一型の決定への依存、およびオープンソースの欠如
実装。
これらの課題に対処するために、このペーパーでは、メトリック空間分析(BFDT-MSA)を使用したベイジアンフロント検出および追跡フレームワークを提案します。
このフレームワークでは、3つのイノベーションを紹介します。(1)グラデーションプライアーとフィールドオペレーターを統合して、手動のしきい値感度を排除するベイジアン決定メカニズム。
(2)断片化された前面をマージし、偽のリングを削除し、正面ゾーンを薄くしてピクセルレベルの精度を融合させるための形態洗練アルゴリズム。
(3)一時的なフロントトラッキングのための新しいメトリック空間定義、フロント進化の体系的な分析を可能にします。
グローバルSSTデータ(2022–2024)で検証されたBFDT-MSAは、優れた強度($ 0.16^\ circ $ c/km)、連続性、および空間的一貫性のあるコヒーレンスを達成しながら、ヒストグラムベースの方法と比較して73ドル\%$を過剰検出します。

オープンソースリリースは、再現可能な海洋学研究の重要なギャップを橋渡しします。

要約(オリジナル)

Existing ocean front detection methods–including histogram-based variance analysis, Lyapunov exponent, gradient thresholding, and machine learning–suffer from critical limitations: discontinuous outputs, over-detection, reliance on single-threshold decisions, and lack of open-source implementations. To address these challenges, this paper proposes the Bayesian Front Detection and Tracking framework with Metric Space Analysis (BFDT-MSA). The framework introduces three innovations: (1) a Bayesian decision mechanism that integrates gradient priors and field operators to eliminate manual threshold sensitivity; (2) morphological refinement algorithms for merging fragmented fronts, deleting spurious rings, and thinning frontal zones to pixel-level accuracy; and (3) a novel metric space definition for temporal front tracking, enabling systematic analysis of front evolution. Validated on global SST data (2022–2024), BFDT-MSA reduces over-detection by $73\%$ compared to histogram-based methods while achieving superior intensity ($0.16^\circ$C/km), continuity, and spatiotemporal coherence. The open-source release bridges a critical gap in reproducible oceanographic research.

arxiv情報

著者 Yishuo Wang,Feng Zhou
発行日 2025-02-25 13:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An ocean front detection and tracking algorithm はコメントを受け付けていません

D-STGCNT: A Dense Spatio-Temporal Graph Conv-GRU Network based on transformer for assessment of patient physical rehabilitation

要約

この論文は、臨床医の監督なしで運動を行う患者の物理的リハビリテーション演習を自動的に評価するという課題に取り組んでいます。
目的は、正しいパフォーマンスを確保し、望ましい結果を達成するために品質スコアを提供することです。
この目標を達成するために、新しいグラフベースのモデルであるTransformerを使用した密な時空グラフConv-Gruネットワークが導入されています。
このモデルは、STGCNと変圧器アーキテクチャの修正バージョンを組み合わせて、時空間データを効率的に処理するためです。
重要なアイデアは、スケルトンデータをその非線形構造をグラフとして尊重し、各リハビリテーション演習で主要な役割を果たすジョイントを検出することです。
密な接続とGRUメカニズムを使用して、大規模な3Dスケルトン入力を迅速に処理し、時間的ダイナミクスを効果的にモデル化します。
トランスエンコーダーの注意メカニズムは、入力シーケンスの関連部分に焦点を当てており、リハビリテーションの演習を評価するのに役立ちます。
キモアとUI-PRMDデータセットに関する提案されたアプローチの評価は、その可能性を強調し、精度と計算時間の観点から最先端の方法を上回りました。
これにより、リハビリテーション演習のより速く、より正確な学習と評価が得られました。
さらに、私たちのモデルは、定性的イラストを通じて貴重なフィードバックを提供し、特定の演習における関節の重要性を効果的に強調します。

要約(オリジナル)

This paper tackles the challenge of automatically assessing physical rehabilitation exercises for patients who perform the exercises without clinician supervision. The objective is to provide a quality score to ensure correct performance and achieve desired results. To achieve this goal, a new graph-based model, the Dense Spatio-Temporal Graph Conv-GRU Network with Transformer, is introduced. This model combines a modified version of STGCN and transformer architectures for efficient handling of spatio-temporal data. The key idea is to consider skeleton data respecting its non-linear structure as a graph and detecting joints playing the main role in each rehabilitation exercise. Dense connections and GRU mechanisms are used to rapidly process large 3D skeleton inputs and effectively model temporal dynamics. The transformer encoder’s attention mechanism focuses on relevant parts of the input sequence, making it useful for evaluating rehabilitation exercises. The evaluation of our proposed approach on the KIMORE and UI-PRMD datasets highlighted its potential, surpassing state-of-the-art methods in terms of accuracy and computational time. This resulted in faster and more accurate learning and assessment of rehabilitation exercises. Additionally, our model provides valuable feedback through qualitative illustrations, effectively highlighting the significance of joints in specific exercises.

arxiv情報

著者 Youssef Mourchid,Rim Slama
発行日 2025-02-25 13:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | D-STGCNT: A Dense Spatio-Temporal Graph Conv-GRU Network based on transformer for assessment of patient physical rehabilitation はコメントを受け付けていません

Multi-Perspective Data Augmentation for Few-shot Object Detection

要約

最近の少数のショットオブジェクト検出(FSOD)メソッドは、新しいクラスの合成サンプルの増強に焦点を当てており、拡散モデルの台頭の有望な結果を示しています。
ただし、このようなデータセットの多様性は、特に前景と背景関係のコンテキストでは、典型的でハードサンプルの認識が欠けているため、代表性が限られていることがよくあります。
この問題に取り組むために、マルチ視点データ増強(MPAD)フレームワークを提案します。
前景前の関係に関しては、合成サンプルの詳細と空間情報を強化するために、境界ボックス調整を備えたオブジェクト合成(ICO)のコンテキスト内学習を提案します。
大きなマージンの原則に触発されて、サポートサンプルはクラスの境界を定義する上で重要な役割を果たします。
したがって、拡散モデルの生成プロセスの各時間ステップで促進する埋め込みを混合して、ハードな新規サンプルを生成するために、高調波プロンプト集約スケジューラ(HPA)を設計します。
フォアグラウンドバックグラウンドの関係については、典型的でハードな背景をサンプリングするための背景提案方法(BAP)を紹介します。
複数のFSODベンチマークでの広範な実験は、アプローチの有効性を示しています。
私たちのフレームワークは、従来の方法を大幅に上回り、Pascal VOCのベースラインでNAP50で平均17.5ドル\%$の増加を達成します。
コードはhttps://github.com/nvakhoa/mpadで入手できます。

要約(オリジナル)

Recent few-shot object detection (FSOD) methods have focused on augmenting synthetic samples for novel classes, show promising results to the rise of diffusion models. However, the diversity of such datasets is often limited in representativeness because they lack awareness of typical and hard samples, especially in the context of foreground and background relationships. To tackle this issue, we propose a Multi-Perspective Data Augmentation (MPAD) framework. In terms of foreground-foreground relationships, we propose in-context learning for object synthesis (ICOS) with bounding box adjustments to enhance the detail and spatial information of synthetic samples. Inspired by the large margin principle, support samples play a vital role in defining class boundaries. Therefore, we design a Harmonic Prompt Aggregation Scheduler (HPAS) to mix prompt embeddings at each time step of the generation process in diffusion models, producing hard novel samples. For foreground-background relationships, we introduce a Background Proposal method (BAP) to sample typical and hard backgrounds. Extensive experiments on multiple FSOD benchmarks demonstrate the effectiveness of our approach. Our framework significantly outperforms traditional methods, achieving an average increase of $17.5\%$ in nAP50 over the baseline on PASCAL VOC. Code is available at https://github.com/nvakhoa/MPAD.

arxiv情報

著者 Anh-Khoa Nguyen Vu,Quoc-Truong Truong,Vinh-Tiep Nguyen,Thanh Duc Ngo,Thanh-Toan Do,Tam V. Nguyen
発行日 2025-02-25 13:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-Perspective Data Augmentation for Few-shot Object Detection はコメントを受け付けていません

Training Consistency Models with Variational Noise Coupling

要約

一貫性トレーニング(CT)は最近、拡散モデルの有望な代替手段として浮上し、画像生成タスクで競争力のあるパフォーマンスを達成しています。
ただし、非蒸留の一貫性トレーニングは、多くの場合、高い変動と不安定性に苦しんでおり、そのトレーニングダイナミクスを分析および改善することは、研究の積極的な分野です。
この作業では、フローマッチングフレームワークに基づいて、新しいCTトレーニングアプローチを提案します。
私たちの主な貢献は、変分自動エンコーダー(VAE)のアーキテクチャに触発された訓練されたノイズ結合スキームです。
エンコーダーアーキテクチャとして実装されたデータ依存ノイズ排出モデルをトレーニングすることにより、この方法は、ノイズ間マッピングのジオメトリを間接的に学習できます。これは、代わりに古典的なCTでのフォワードプロセスの選択によって修正されます。
多様な画像データセット全体での経験的結果は、モデルがベースラインを上回り、CIFAR-10で最先端の(SOTA)非蒸留CT FIDを達成し、64ドルのImagenetでSOTAと同等のFIDを達成することで、大幅な生成的改善を示しています。
\ Times 64 $ 2段階の解像度。
私たちのコードは、https://github.com/sony/vctで入手できます。

要約(オリジナル)

Consistency Training (CT) has recently emerged as a promising alternative to diffusion models, achieving competitive performance in image generation tasks. However, non-distillation consistency training often suffers from high variance and instability, and analyzing and improving its training dynamics is an active area of research. In this work, we propose a novel CT training approach based on the Flow Matching framework. Our main contribution is a trained noise-coupling scheme inspired by the architecture of Variational Autoencoders (VAE). By training a data-dependent noise emission model implemented as an encoder architecture, our method can indirectly learn the geometry of the noise-to-data mapping, which is instead fixed by the choice of the forward process in classical CT. Empirical results across diverse image datasets show significant generative improvements, with our model outperforming baselines and achieving the state-of-the-art (SoTA) non-distillation CT FID on CIFAR-10, and attaining FID on par with SoTA on ImageNet at $64 \times 64$ resolution in 2-step generation. Our code is available at https://github.com/sony/vct .

arxiv情報

著者 Gianluigi Silvestri,Luca Ambrogioni,Chieh-Hsin Lai,Yuhta Takida,Yuki Mitsufuji
発行日 2025-02-25 13:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Training Consistency Models with Variational Noise Coupling はコメントを受け付けていません

Leveraging 2D Masked Reconstruction for Domain Adaptation of 3D Pose Estimation

要約

RGBベースの3Dポーズ推定方法は、深い学習の開発と高品質の3Dポーズデータセットの出現により成功しています。
ただし、ほとんどの既存の方法は、分布がトレーニングデータとはほど遠い画像をテストするためにうまく動作しません。
ただし、ほとんどの既存の方法は、分布がトレーニングデータとはほど遠い画像をテストするためにうまく動作しません。
この問題は、トレーニング中に多様なデータを含めることで軽減される可能性がありますが、対応するラベル(つまり、3Dポーズ)でこのような多様なデータを収集することは重要ではありません。
このホワイトペーパーでは、マスクされた画像モデリング(MIM)フレームワークを介してラベル付きデータに加えて、非標識データを利用する3Dポーズ推定のために、監視されていないドメイン適応フレームワークを導入しました。
前景中心の再構築と注意の正則化は、非標識データの使用の有効性を高めるためにさらに提案されています。
実験は、特にクロスドメインシナリオを使用して、人間とハンドポーズの推定タスクのさまざまなデータセットで行われます。
すべてのデータセットで最先端の精度を達成することにより、当社の有効性を実証しました。

要約(オリジナル)

RGB-based 3D pose estimation methods have been successful with the development of deep learning and the emergence of high-quality 3D pose datasets. However, most existing methods do not operate well for testing images whose distribution is far from that of training data. However, most existing methods do not operate well for testing images whose distribution is far from that of training data. This problem might be alleviated by involving diverse data during training, however it is non-trivial to collect such diverse data with corresponding labels (i.e. 3D pose). In this paper, we introduced an unsupervised domain adaptation framework for 3D pose estimation that utilizes the unlabeled data in addition to labeled data via masked image modeling (MIM) framework. Foreground-centric reconstruction and attention regularization are further proposed to increase the effectiveness of unlabeled data usage. Experiments are conducted on the various datasets in human and hand pose estimation tasks, especially using the cross-domain scenario. We demonstrated the effectiveness of ours by achieving the state-of-the-art accuracy on all datasets.

arxiv情報

著者 Hansoo Park,Chanwoo Kim,Jihyeon Kim,Hoseong Cho,Nhat Nguyen Bao Truong,Taehwan Kim,Seungryul Baek
発行日 2025-02-25 13:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, cs.LG | Leveraging 2D Masked Reconstruction for Domain Adaptation of 3D Pose Estimation はコメントを受け付けていません

Learning Structure-Supporting Dependencies via Keypoint Interactive Transformer for General Mammal Pose Estimation

要約

一般的な哺乳類のポーズ推定は、コンピュータービジョンにおける重要で挑戦的なタスクであり、実際のアプリケーションで哺乳類の行動を理解するために不可欠です。
ただし、既存の研究は予備研究段階にあり、いくつかの特定の哺乳類種のみの問題に対処することに焦点を当てています。
原則として、特定の哺乳類のポーズ推定から一般的な問題は、最大の問題は、異なる種の巨大な外観に対処し、違いをもたらす方法です。
私たちは、外観のコンテキスト、インスタンスレベルの事前とキーポイント間の構造的関係が補完的な証拠として機能する可能性があると主張します。
この目的のために、一般的な哺乳類のポーズ推定のためにインスタンスレベルの構造サポート依存関係を学習するために、キーポイントインタラクティブトランス(キット)を提案します。
具体的には、私たちのキタスは2つの結合コンポーネントで構成されています。
最初のコンポーネントは、キーポイント機能を抽出し、ボディパーツプロンプトを生成することです。
機能は、専用の一般化ヒートマップ回帰損失(GHRL)によって監督されています。
外部のビジュアル/テキストプロンプトを導入する代わりに、キーポイントクラスタリングを考案してボディパーツバイアスを生成し、それらを画像コンテキストに合わせて対応するインスタンスレベルのプロンプトを生成します。
第二に、空間分割を実行せずに入力トークンとして機能スライスを採用する新しいインタラクティブな変圧器を提案します。
さらに、キットモデルの機能を強化するために、さまざまなキーポイント間の不均衡の問題に対処するための適応体重戦略を設計します。

要約(オリジナル)

General mammal pose estimation is an important and challenging task in computer vision, which is essential for understanding mammal behaviour in real-world applications. However, existing studies are at their preliminary research stage, which focus on addressing the problem for only a few specific mammal species. In principle, from specific to general mammal pose estimation, the biggest issue is how to address the huge appearance and pose variances for different species. We argue that given appearance context, instance-level prior and the structural relation among keypoints can serve as complementary evidence. To this end, we propose a Keypoint Interactive Transformer (KIT) to learn instance-level structure-supporting dependencies for general mammal pose estimation. Specifically, our KITPose consists of two coupled components. The first component is to extract keypoint features and generate body part prompts. The features are supervised by a dedicated generalised heatmap regression loss (GHRL). Instead of introducing external visual/text prompts, we devise keypoints clustering to generate body part biases, aligning them with image context to generate corresponding instance-level prompts. Second, we propose a novel interactive transformer that takes feature slices as input tokens without performing spatial splitting. In addition, to enhance the capability of the KIT model, we design an adaptive weight strategy to address the imbalance issue among different keypoints.

arxiv情報

著者 Tianyang Xu,Jiyong Rao,Xiaoning Song,Zhenhua Feng,Xiao-Jun Wu
発行日 2025-02-25 13:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Structure-Supporting Dependencies via Keypoint Interactive Transformer for General Mammal Pose Estimation はコメントを受け付けていません

Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training

要約

大規模な拡散モデルは、単一の画像からの新規ビューの合成における顕著なゼロショット機能を示しています。
ただし、これらのモデルは、新しいモデルと参照ビュー全体で一貫性を維持する上で課題に直面することがよくあります。
この問題につながる重要な要因は、参照ビューからのコンテキスト情報の限られた利用です。
具体的には、2つのビューの間に視聴力に重複がある場合、対応する領域がジオメトリと外観の両方で一貫性を維持することが不可欠です。
この観察結果は、シンプルでありながら効果的なアプローチにつながります。このアプローチでは、エピポラージオメトリを使用して、入力ビューから重複した情報を見つけて取得することを提案します。
この情報は、ターゲットビューの生成に組み込まれ、プロセスには学習可能なパラメーターが必要ないため、トレーニングまたは微調整の必要性を排除します。
さらに、生成されたビューの全体的な一貫性を高めるために、エピポーラの注意の使用率をマルチビュー設定に拡張し、入力ビューやその他のターゲットビューからのオーバーラップ情報の取得を可能にします。
定性的および定量的な実験結果は、微調整を必要とせずに合成されたビューの一貫性を大幅に改善する際の方法の有効性を示しています。
さらに、この強化は、3D再構成などのダウンストリームアプリケーションのパフォーマンスも向上します。
このコードは、https://github.com/botaoye/consissynで入手できます。

要約(オリジナル)

Large diffusion models demonstrate remarkable zero-shot capabilities in novel view synthesis from a single image. However, these models often face challenges in maintaining consistency across novel and reference views. A crucial factor leading to this issue is the limited utilization of contextual information from reference views. Specifically, when there is an overlap in the viewing frustum between two views, it is essential to ensure that the corresponding regions maintain consistency in both geometry and appearance. This observation leads to a simple yet effective approach, where we propose to use epipolar geometry to locate and retrieve overlapping information from the input view. This information is then incorporated into the generation of target views, eliminating the need for training or fine-tuning, as the process requires no learnable parameters. Furthermore, to enhance the overall consistency of generated views, we extend the utilization of epipolar attention to a multi-view setting, allowing retrieval of overlapping information from the input view and other target views. Qualitative and quantitative experimental results demonstrate the effectiveness of our method in significantly improving the consistency of synthesized views without the need for any fine-tuning. Moreover, This enhancement also boosts the performance of downstream applications such as 3D reconstruction. The code is available at https://github.com/botaoye/ConsisSyn.

arxiv情報

著者 Botao Ye,Sifei Liu,Xueting Li,Marc Pollefeys,Ming-Hsuan Yang
発行日 2025-02-25 14:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training はコメントを受け付けていません

UASTrack: A Unified Adaptive Selection Framework with Modality-Customization in Single Object Tracking

要約

さまざまなセンサータイプがオブジェクトの外観の変動によって引き起こされる課題を克服するためにユニークな機能を貢献するため、単一オブジェクト追跡(SOT)ではマルチモーダル追跡が不可欠です。
ただし、既存の統一されたRGB-Xトラッカー(Xは深さ、イベント、または熱モダリティを表します)は、個々のRGB-X画像ペアのタスク固有のトレーニング戦略に依存するか、モダリティ適応認識の重要な重要性に対処できません。
世界アプリケーション。
この作業では、モデルとパラメーターの両方の統合、およびさまざまなマルチモーダル追跡タスクにわたる適応モダリティ差別を促進する統一された適応選択フレームワークであるUastrackを提案します。
共同RGB-Xペアでモダリティに適した認識を達成するために、モダリティラベルを識別できる識別自動セレクター(DAS)を設計し、それにより補助モダリティのデータ分布を区別します。
さらに、潜在空間のさまざまなモダリティに合わせたタスクカスタマイズされた最適化アダプター(TCOA)を提案します。
この戦略は、各モダリティの特定の特性に基づいて、ノイズの冗長性を効果的にフィルタリングし、バックグラウンド干渉を軽減します。
RGB-T、RGB-E、およびRGB-D追跡シナリオをカバーするLasher、GTOT、RGBT234、Visevent、Depthrackを含む5つのベンチマークで実施された広範な比較は、1.87Mの追加トレーニングパラメーターのみを導入することで革新的なアプローチを実現することで、革新的なアプローチを実証します。
1.95gのフロップ。
コードはhttps://github.com/wanghe/uastrackで入手できます。

要約(オリジナル)

Multi-modal tracking is essential in single-object tracking (SOT), as different sensor types contribute unique capabilities to overcome challenges caused by variations in object appearance. However, existing unified RGB-X trackers (X represents depth, event, or thermal modality) either rely on the task-specific training strategy for individual RGB-X image pairs or fail to address the critical importance of modality-adaptive perception in real-world applications. In this work, we propose UASTrack, a unified adaptive selection framework that facilitates both model and parameter unification, as well as adaptive modality discrimination across various multi-modal tracking tasks. To achieve modality-adaptive perception in joint RGB-X pairs, we design a Discriminative Auto-Selector (DAS) capable of identifying modality labels, thereby distinguishing the data distributions of auxiliary modalities. Furthermore, we propose a Task-Customized Optimization Adapter (TCOA) tailored to various modalities in the latent space. This strategy effectively filters noise redundancy and mitigates background interference based on the specific characteristics of each modality. Extensive comparisons conducted on five benchmarks including LasHeR, GTOT, RGBT234, VisEvent, and DepthTrack, covering RGB-T, RGB-E, and RGB-D tracking scenarios, demonstrate our innovative approach achieves comparative performance by introducing only additional training parameters of 1.87M and flops of 1.95G. The code will be available at https://github.com/wanghe/UASTrack.

arxiv情報

著者 He Wang,Tianyang Xu,Zhangyong Tang,Xiao-Jun Wu,Josef Kittler
発行日 2025-02-25 14:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | UASTrack: A Unified Adaptive Selection Framework with Modality-Customization in Single Object Tracking はコメントを受け付けていません

Multi-label out-of-distribution detection via evidential learning

要約

機械学習アルゴリズムの重要な要件は、パフォーマンスがうまく機能するだけでなく、新しいシナリオに遭遇したときに堅牢性と適応性を示すことです。
これらの特性を達成する1つの方法は、ディープラーニングモデルに、分散型(OOD)データ、つまりトレーニング中に使用される分布とは異なる分布に属するデータを検出する機能を備えていることです。
これらのデータが通常マルチラベルである場合、これはさらに複雑な状況です。
この論文では、視覚認識の問題に適用されるこれらの課題を満たすために、証拠の深い学習に基づいたアプローチを提案します。
より具体的には、ベータ証拠ニューラルネットワークを使用して、サンプルの尤度と予測的な不確実性の両方を計算するCNNアーキテクチャを設計しました。
これらの結果に基づいて、その後、OODデータ検出のための2つの新しい不確実性ベースのスコアを提案します。
(ii)oodスコア – すべての出力からの証拠を考慮します。
広く使用されている3つのデータセットを使用して提案されたアプローチを検証するために広範な実験が実施されており、Pascal-Voc、MS-Coco、Nus-Wideを使用して、いくつかの最先端の方法よりもそのアウトパフォーマンスを示しています。

要約(オリジナル)

A crucial requirement for machine learning algorithms is not only to perform well, but also to show robustness and adaptability when encountering novel scenarios. One way to achieve these characteristics is to endow the deep learning models with the ability to detect out-of-distribution (OOD) data, i.e. data that belong to distributions different from the one used during their training. It is even a more complicated situation, when these data usually are multi-label. In this paper, we propose an approach based on evidential deep learning in order to meet these challenges applied to visual recognition problems. More concretely, we designed a CNN architecture that uses a Beta Evidential Neural Network to compute both the likelihood and the predictive uncertainty of the samples. Based on these results, we propose afterwards two new uncertainty-based scores for OOD data detection: (i) OOD – score Max, based on the maximum evidence; and (ii) OOD score – Sum, which considers the evidence from all outputs. Extensive experiments have been carried out to validate the proposed approach using three widely-used datasets: PASCAL-VOC, MS-COCO and NUS-WIDE, demonstrating its outperformance over several State-of-the-Art methods.

arxiv情報

著者 Eduardo Aguilar,Bogdan Raducanu,Petia Radeva
発行日 2025-02-25 14:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-label out-of-distribution detection via evidential learning はコメントを受け付けていません

HAIFAI: Human-AI Interaction for Mental Face Reconstruction

要約

ハイファイは、人間とAIが相互作用して、人の心にのみ存在する顔の視覚的表現を再構築するという挑戦的なタスクに取り組む新しい2段階システムです。
最初の段階では、ユーザーは、メンタルイメージとの類似性に基づいて、再構成システムが提示する画像を繰り返しランク付けします。
これらのランキングにより、システムは関連する画像機能を抽出し、それらを統合された機能ベクトルに融合し、生成モデルを使用してメンタルイメージの初期再構成を生成できます。
第2段階では、既存のフェイス編集方法を活用して、ユーザーが手動でこの再構成を改善し、さらに使用できるスライダーインターフェイスを使用して、顔の形状操作を使用してさらに改善できます。
再構成システムをトレーニングするための退屈な人間のデータ収集の必要性を回避するために、人間のランキング行動の計算ユーザーモデルを紹介します。
このために、275人の参加者からのデータを含むオンラインクラウドソーシング研究を通じて、小さなフェイスランキングデータセットを収集しました。
12人の参加者のユーザー調査でハイファイとアブレーションバージョンを評価し、私たちのアプローチが、再構成の品質、使いやすさ、知覚されたワークロード、再構成速度に関する以前のARTを上回ることを実証します。
さらに、18人の参加者との後続の顔ランキング研究の再構成を検証し、ハイファイが60.6%の新しい最先端の識別率を達成していることを示しています。
これらの調査結果は、ユーザーの精神的イメージを確実かつ楽に再構築できる新しいインタラクティブなインテリジェントシステムの開発に向けた重要な進歩を表しています。

要約(オリジナル)

We present HAIFAI – a novel two-stage system where humans and AI interact to tackle the challenging task of reconstructing a visual representation of a face that exists only in a person’s mind. In the first stage, users iteratively rank images our reconstruction system presents based on their resemblance to a mental image. These rankings, in turn, allow the system to extract relevant image features, fuse them into a unified feature vector, and use a generative model to produce an initial reconstruction of the mental image. The second stage leverages an existing face editing method, allowing users to manually refine and further improve this reconstruction using an easy-to-use slider interface for face shape manipulation. To avoid the need for tedious human data collection for training the reconstruction system, we introduce a computational user model of human ranking behaviour. For this, we collected a small face ranking dataset through an online crowd-sourcing study containing data from 275 participants. We evaluate HAIFAI and an ablated version in a 12-participant user study and demonstrate that our approach outperforms the previous state of the art regarding reconstruction quality, usability, perceived workload, and reconstruction speed. We further validate the reconstructions in a subsequent face ranking study with 18 participants and show that HAIFAI achieves a new state-of-the-art identification rate of 60.6%. These findings represent a significant advancement towards developing new interactive intelligent systems capable of reliably and effortlessly reconstructing a user’s mental image.

arxiv情報

著者 Florian Strohm,Mihai Bâce,Andreas Bulling
発行日 2025-02-25 14:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HAIFAI: Human-AI Interaction for Mental Face Reconstruction はコメントを受け付けていません