Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph

要約

自然言語で説明されているオブジェクトを見つけることは、自律剤にとって重要な課題です。
既存のクリップベースのオープンボキャブラリーメソッドは、単純な(裸の)クエリで3Dオブジェクトの接地を正常に実行しますが、オブジェクト関係の理解を要求する曖昧な説明に対処することはできません。
この問題に取り組むために、メトリックおよびセマンティックの空間エッジを使用して3Dシーングラフ表現を構築し、控除シーンの推論アルゴリズムを通じて人間からエージェントのインターフェイスとして大規模な言語モデルを使用するBBQ(ベアクエリを超えて)と呼ばれるモジュールアプローチを提案します。
BBQは、3Dオブジェクト中心のマップと、グラフノードとして記述する2Dビジョン言語モデルを備えた高度なレイキャスティングアルゴリズムを構築するために、堅牢な恐竜駆動の関連付けを採用しています。
レプリカとスキャンテットのデータセットでは、BBQが他のゼロショット方法と比較して、オープンボキャブラリー3Dセマンティックセグメンテーションで主要な位置を占めることを実証しました。
また、空間関係を活用することは、同じセマンティッククラスの複数のエンティティを含むシーンに特に効果的であることを示しています。
SR3D+、NR3D、およびScanreferベンチマークに挑戦すると、私たちの演ductive的なアプローチは、他の最先端の方法と比較して複雑なクエリによるオブジェクトの接地を可能にする大幅な改善を示しています。
設計の選択肢とソフトウェアの実装の組み合わせにより、ロボットオンボードコンピューターでの実験において重要なデータ処理速度が得られました。
この有望なパフォーマンスにより、インテリジェントロボットプロジェクトでのアプローチの適用が可能になります。
コードをhttps://linukc.github.io/beyondbarequeries/で公開しました。

要約(オリジナル)

Locating objects described in natural language presents a significant challenge for autonomous agents. Existing CLIP-based open-vocabulary methods successfully perform 3D object grounding with simple (bare) queries, but cannot cope with ambiguous descriptions that demand an understanding of object relations. To tackle this problem, we propose a modular approach called BBQ (Beyond Bare Queries), which constructs 3D scene graph representation with metric and semantic spatial edges and utilizes a large language model as a human-to-agent interface through our deductive scene reasoning algorithm. BBQ employs robust DINO-powered associations to construct 3D object-centric map and an advanced raycasting algorithm with a 2D vision-language model to describe them as graph nodes. On the Replica and ScanNet datasets, we have demonstrated that BBQ takes a leading place in open-vocabulary 3D semantic segmentation compared to other zero-shot methods. Also, we show that leveraging spatial relations is especially effective for scenes containing multiple entities of the same semantic class. On challenging Sr3D+, Nr3D and ScanRefer benchmarks, our deductive approach demonstrates a significant improvement, enabling objects grounding by complex queries compared to other state-of-the-art methods. The combination of our design choices and software implementation has resulted in significant data processing speed in experiments on the robot on-board computer. This promising performance enables the application of our approach in intelligent robotics projects. We made the code publicly available at https://linukc.github.io/BeyondBareQueries/.

arxiv情報

著者 Sergey Linok,Tatiana Zemskova,Svetlana Ladanova,Roman Titkov,Dmitry Yudin,Maxim Monastyrny,Aleksei Valenkov
発行日 2025-05-06 14:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph はコメントを受け付けていません

Read My Ears! Horse Ear Movement Detection for Equine Affective State Assessment

要約

馬の顔のアクションコーディングシステム(Equifacs)により、異なるアクションユニット(AUS)を介した顔の動きの体系的な注釈が可能になります。
不快感に関連する微妙な表情を特定することにより、馬の感情状態を評価するための重要なツールとして機能します。
ただし、馬の感情的な状態評価の分野は、注釈付きデータの希少性によって制約されています。これは、手動でフェイシャルAUSが時間がかかり、費用がかかるためです。
この課題に対処するために、既存のデータセットを活用し、感情的な状態検出ツールを改善するためには、自動注釈システムが不可欠です。
この作業では、特定の耳AUの検出と馬のビデオからのローカリゼーションのさまざまな方法を研究しています。
深い学習ベースのビデオ機能抽出と、ビデオ分類タスクのために再発性ニューラルネットワークと組み合わせた過去の作業と、古典的な光フローベースのアプローチを活用しています。
パブリックホースビデオデータセットでの耳の動きの存在の87.5%の分類精度を達成し、アプローチの可能性を示しています。
馬の福祉と獣医診断における自動AU検出と実用的なアプリケーションとのギャップを埋めることを目的として、これらのシステムを開発するための将来の方向性について説明します。
私たちのコードは、https://github.com/jmalves5/read-my-earsで公開されます。

要約(オリジナル)

The Equine Facial Action Coding System (EquiFACS) enables the systematic annotation of facial movements through distinct Action Units (AUs). It serves as a crucial tool for assessing affective states in horses by identifying subtle facial expressions associated with discomfort. However, the field of horse affective state assessment is constrained by the scarcity of annotated data, as manually labelling facial AUs is both time-consuming and costly. To address this challenge, automated annotation systems are essential for leveraging existing datasets and improving affective states detection tools. In this work, we study different methods for specific ear AU detection and localization from horse videos. We leverage past works on deep learning-based video feature extraction combined with recurrent neural networks for the video classification task, as well as a classic optical flow based approach. We achieve 87.5% classification accuracy of ear movement presence on a public horse video dataset, demonstrating the potential of our approach. We discuss future directions to develop these systems, with the aim of bridging the gap between automated AU detection and practical applications in equine welfare and veterinary diagnostics. Our code will be made publicly available at https://github.com/jmalves5/read-my-ears.

arxiv情報

著者 João Alves,Pia Haubro Andersen,Rikke Gade
発行日 2025-05-06 14:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Read My Ears! Horse Ear Movement Detection for Equine Affective State Assessment はコメントを受け付けていません

Generating Synthetic Data via Augmentations for Improved Facial Resemblance in DreamBooth and InstantID

要約

アマチュア写真からプロのポートレートを生成するための安定した拡散のパーソナライズは、さまざまな下流のコンテキストにアプリケーションを備えた急成長エリアです。
このペーパーでは、2つの著名なパーソナライズ手法を使用する場合の顔の類似性の改善に対する増強の影響を調査します。DreamBoothとInstantid。
多様なサブジェクトデータセットを使用した一連の実験を通じて、生成されたヘッドショットの元の主題に対する忠実度に対するさまざまな増強戦略の有効性を評価しました。
フェイスネットの周りのラッパーであるFacedistanceを紹介して、顔の類似性に基づいて世代をランク付けし、それが私たちの評価を支援しました。
最終的に、この研究は、SDXL生成されたポートレートにおける顔の類似性を高める上での増強の役割に関する洞察を提供し、ダウンストリームアプリケーションでの効果的な展開のための戦略を通知します。

要約(オリジナル)

The personalization of Stable Diffusion for generating professional portraits from amateur photographs is a burgeoning area, with applications in various downstream contexts. This paper investigates the impact of augmentations on improving facial resemblance when using two prominent personalization techniques: DreamBooth and InstantID. Through a series of experiments with diverse subject datasets, we assessed the effectiveness of various augmentation strategies on the generated headshots’ fidelity to the original subject. We introduce FaceDistance, a wrapper around FaceNet, to rank the generations based on facial similarity, which aided in our assessment. Ultimately, this research provides insights into the role of augmentations in enhancing facial resemblance in SDXL-generated portraits, informing strategies for their effective deployment in downstream applications.

arxiv情報

著者 Koray Ulusan,Benjamin Kiefer
発行日 2025-05-06 14:11:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Generating Synthetic Data via Augmentations for Improved Facial Resemblance in DreamBooth and InstantID はコメントを受け付けていません

Real-Time Person Image Synthesis Using a Flow Matching Model

要約

ポーズガイド付きの人の画像合成(PGPI)は、ターゲットポーズとソース画像に条件付けられた現実的な人イメージを生成します。
このタスクは、手話ビデオ生成、AR/VR、ゲーム、ライブストリーミングなど、さまざまな現実世界のアプリケーションで重要な役割を果たします。
これらのシナリオでは、リアルタイムのPGPIは、即時の視覚的フィードバックを提供し、ユーザーの没入を維持するために重要です。しかし、リアルタイムのパフォーマンスを達成することは、多様で動的な人間のポーズからの高忠実度の画像を合成する複雑さのために依然として重要な課題です。
最近の拡散ベースの方法では、PGPIで印象的な画質が示されていますが、サンプリング速度が遅いため、時間に敏感なアプリケーションでの展開が妨げられます。
このレイテンシは、ライブブロードキャスト中に手話ビデオを生成するなどのタスクで特に問題があります。
したがって、高速で信頼性の高いPGPIモデルを開発することは、リアルタイムのインタラクティブシステムを有効にするための重要なステップです。
この課題に対処するために、フローマッチング(FM)に基づいて生成モデルを提案します。
私たちのアプローチにより、より速く、より安定した、より効率的なトレーニングとサンプリングが可能になります。
さらに、提案されたモデルは条件付き生成をサポートし、潜在空間で動作することができ、速度と品質の両方が重要なリアルタイムPGPIアプリケーションに特に適しています。
PGPISタスクに広く使用されているDeepFashionデータセットで、フローマッチングモデル(RPFM)を使用して、提案された方法であるリアルタイムの人の画像合成を評価します。
私たちの結果は、RPFMが最先端のモデルに匹敵するパフォーマンスを維持しながら、ほぼリアルタイムサンプリング速度を達成することを示しています。
私たちの方法論は、生成速度の2倍以上の増加に対して生成されたイメージの精度のわずかな許容可能な減少を交換し、それによりリアルタイムのパフォーマンスを確保します。

要約(オリジナル)

Pose-Guided Person Image Synthesis (PGPIS) generates realistic person images conditioned on a target pose and a source image. This task plays a key role in various real-world applications, such as sign language video generation, AR/VR, gaming, and live streaming. In these scenarios, real-time PGPIS is critical for providing immediate visual feedback and maintaining user immersion.However, achieving real-time performance remains a significant challenge due to the complexity of synthesizing high-fidelity images from diverse and dynamic human poses. Recent diffusion-based methods have shown impressive image quality in PGPIS, but their slow sampling speeds hinder deployment in time-sensitive applications. This latency is particularly problematic in tasks like generating sign language videos during live broadcasts, where rapid image updates are required. Therefore, developing a fast and reliable PGPIS model is a crucial step toward enabling real-time interactive systems. To address this challenge, we propose a generative model based on flow matching (FM). Our approach enables faster, more stable, and more efficient training and sampling. Furthermore, the proposed model supports conditional generation and can operate in latent space, making it especially suitable for real-time PGPIS applications where both speed and quality are critical. We evaluate our proposed method, Real-Time Person Image Synthesis Using a Flow Matching Model (RPFM), on the widely used DeepFashion dataset for PGPIS tasks. Our results show that RPFM achieves near-real-time sampling speeds while maintaining performance comparable to the state-of-the-art models. Our methodology trades off a slight, acceptable decrease in generated-image accuracy for over a twofold increase in generation speed, thereby ensuring real-time performance.

arxiv情報

著者 Jiwoo Jeong,Kirok Kim,Wooju Kim,Nam-Joon Kim
発行日 2025-05-06 14:13:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Real-Time Person Image Synthesis Using a Flow Matching Model はコメントを受け付けていません

Uncertainty-Aware Prototype Semantic Decoupling for Text-Based Person Search in Full Images

要約

完全な画像のテキストベースの歩行者検索(TBPS)は、自然言語の説明を使用して、トリミングされていない画像でターゲットの歩行者を見つけることを目的としています。
ただし、複数の歩行者がいる複雑なシーンでは、既存の方法は検出とマッチングの不確実性によって制限され、パフォーマンスが低下します。
これに対処するために、3つのモジュールで構成される新しいフレームワークであるUPD-TBPSを提案します:多粒度の不確実性推定(MUE)、プロトタイプベースの不確実性分離(PUD)、およびクロスモーダル再識別(REID)。
MUEは、潜在的なターゲットを特定するためにマルチガニュラリティクエリを実施し、初期段階の不確実性を減らすために信頼性スコアを割り当てます。
PUDは、視覚的なコンテキストデカップリングとプロトタイプマイニングをレバレッジして、クエリに記載されているターゲットの歩行者の特徴を抽出します。
粗粒のクラスターレベルと細粒の個々のレベルの両方で、歩行者のプロトタイプ表現を分離および学習し、それによりマッチングの不確実性を減らします。
リードは、信頼レベルが変化する候補者を評価し、検出と検索の精度を改善します。
Cuhk-Sysu-TBPSおよびPRW-TBPSデータセットの実験により、フレームワークの有効性が検証されます。

要約(オリジナル)

Text-based pedestrian search (TBPS) in full images aims to locate a target pedestrian in untrimmed images using natural language descriptions. However, in complex scenes with multiple pedestrians, existing methods are limited by uncertainties in detection and matching, leading to degraded performance. To address this, we propose UPD-TBPS, a novel framework comprising three modules: Multi-granularity Uncertainty Estimation (MUE), Prototype-based Uncertainty Decoupling (PUD), and Cross-modal Re-identification (ReID). MUE conducts multi-granularity queries to identify potential targets and assigns confidence scores to reduce early-stage uncertainty. PUD leverages visual context decoupling and prototype mining to extract features of the target pedestrian described in the query. It separates and learns pedestrian prototype representations at both the coarse-grained cluster level and the fine-grained individual level, thereby reducing matching uncertainty. ReID evaluates candidates with varying confidence levels, improving detection and retrieval accuracy. Experiments on CUHK-SYSU-TBPS and PRW-TBPS datasets validate the effectiveness of our framework.

arxiv情報

著者 Zengli Luo,Canlong Zhang,Xiaochun Lu,Zhixin Li,Zhiwen Wang
発行日 2025-05-06 14:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Uncertainty-Aware Prototype Semantic Decoupling for Text-Based Person Search in Full Images はコメントを受け付けていません

Corner Cases: How Size and Position of Objects Challenge ImageNet-Trained Models

要約

画像の背景は、異なるデータポイント間の偽の相関に貢献する上で大きな役割を果たします。
画像をキャプチャする人間の審美的な好みにより、データセットは、さまざまなクラスの偏見(特定のフレーム内のオブジェクトの位置)とサイズ(画像比の領域と画像比)を示すことができます。
この論文では、これらのバイアスが、バックグラウンドの偽の特徴に依存しているモデルが予測を行うことに影響を与える可能性があることを示しています。
調査結果をよりよく説明するために、Imagenet1k、Hard Spurious-Imagenetから派生した合成データセットを提案します。これには、さまざまな背景、オブジェクトの位置、オブジェクトサイズの画像が含まれています。
さまざまな前提条件のモデルでデータセットを評価することにより、ほとんどのモデルは、画像比が小さく、オブジェクトが画像の中心から遠く離れている場合、背景の偽の特徴に大きく依存していることがわかります。
さらに、有害な偽りの特徴を軽減することを目的とした現在の方法は、これらの要因を考慮に入れないため、画像変更のコア機能のサイズと位置が最悪のグループの精度でかなりのパフォーマンスの向上を達成できないことを示しています。

要約(オリジナル)

Backgrounds in images play a major role in contributing to spurious correlations among different data points. Owing to aesthetic preferences of humans capturing the images, datasets can exhibit positional (location of the object within a given frame) and size (region-of-interest to image ratio) biases for different classes. In this paper, we show that these biases can impact how much a model relies on spurious features in the background to make its predictions. To better illustrate our findings, we propose a synthetic dataset derived from ImageNet1k, Hard-Spurious-ImageNet, which contains images with various backgrounds, object positions, and object sizes. By evaluating the dataset on different pretrained models, we find that most models rely heavily on spurious features in the background when the region-of-interest (ROI) to image ratio is small and the object is far from the center of the image. Moreover, we also show that current methods that aim to mitigate harmful spurious features, do not take into account these factors, hence fail to achieve considerable performance gains for worst-group accuracies when the size and location of core features in an image change.

arxiv情報

著者 Mishal Fatima,Steffen Jung,Margret Keuper
発行日 2025-05-06 14:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Corner Cases: How Size and Position of Objects Challenge ImageNet-Trained Models はコメントを受け付けていません

Supervised and Unsupervised Textile Classification via Near-Infrared Hyperspectral Imaging and Deep Learning

要約

繊維のリサイクルは、繊維産業の環境への影響を減らすために重要です。
高度なディープラーニングアルゴリズムと組み合わせたハイパースペクトル近赤外(NIR)イメージングは​​、効率的な繊維分類と並べ替えのための有望なソリューションを提供します。
この研究では、監督された監督なしで教師のない深い学習モデルを調査し、さまざまな繊維構造に関する一般化能力をテストします。
最適化された畳み込みニューラルネットワーク(CNNS)および自動エンコーダーネットワークは、さまざまな条件下で堅牢な一般化を実現することを示します。
これらの結果は、正確で堅牢な分類を通じて持続可能な繊維リサイクルを促進するためのハイパースペクトルイメージングと深い学習の可能性を強調しています。

要約(オリジナル)

Recycling textile fibers is critical to reducing the environmental impact of the textile industry. Hyperspectral near-infrared (NIR) imaging combined with advanced deep learning algorithms offers a promising solution for efficient fiber classification and sorting. In this study, we investigate supervised and unsupervised deep learning models and test their generalization capabilities on different textile structures. We show that optimized convolutional neural networks (CNNs) and autoencoder networks achieve robust generalization under varying conditions. These results highlight the potential of hyperspectral imaging and deep learning to advance sustainable textile recycling through accurate and robust classification.

arxiv情報

著者 Maria Kainz,Johannes K. Krondorfer,Malte Jaschik,Maria Jernej,Harald Ganster
発行日 2025-05-06 14:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.app-ph | Supervised and Unsupervised Textile Classification via Near-Infrared Hyperspectral Imaging and Deep Learning はコメントを受け付けていません

DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes

要約

動的環境でのイベントの分析は、人間と相互作用できるインテリジェントエージェントやロボットの開発における基本的な課題をもたらします。
現在のアプローチは、主に視覚モデルを利用しています。
ただし、これらの方法は、多くの場合、画像から情報を暗黙的にキャプチャし、解釈可能な空間的オブジェクト表現を欠いています。
この問題に対処するために、動的グラフをエンコードするための新しい方法であるDygencを紹介します。
この方法は、圧縮された空間的構造観察表現と、大規模な言語モデルの認知能力を統合します。
この統合の目的は、一連のテキストシーングラフに基づいて高度な質問回答を可能にすることです。
星とAGQAのデータセットでの拡張評価は、Dygencが既存の視覚的方法を15〜25%の大きなマージンよりも優れていることを示しています。
さらに、提案された方法は、車輪付きマニピュレータープラットフォームで行われたロボット実験の結果によって実証されているように、明示的なテキストシーングラフを抽出するための基礎モデルを使用して生の入力画像を処理するためにシームレスに拡張できます。
これらの発見が、長期の推論のための堅牢で圧縮されたグラフベースのロボットメモリの実装に貢献することを願っています。
コードはgithub.com/linukc/dygencで入手できます。

要約(オリジナル)

The analysis of events in dynamic environments poses a fundamental challenge in the development of intelligent agents and robots capable of interacting with humans. Current approaches predominantly utilize visual models. However, these methods often capture information implicitly from images, lacking interpretable spatial-temporal object representations. To address this issue we introduce DyGEnc – a novel method for Encoding a Dynamic Graph. This method integrates compressed spatial-temporal structural observation representation with the cognitive capabilities of large language models. The purpose of this integration is to enable advanced question answering based on a sequence of textual scene graphs. Extended evaluations on the STAR and AGQA datasets indicate that DyGEnc outperforms existing visual methods by a large margin of 15-25% in addressing queries regarding the history of human-to-object interactions. Furthermore, the proposed method can be seamlessly extended to process raw input images utilizing foundational models for extracting explicit textual scene graphs, as substantiated by the results of a robotic experiment conducted with a wheeled manipulator platform. We hope that these findings will contribute to the implementation of robust and compressed graph-based robotic memory for long-horizon reasoning. Code is available at github.com/linukc/DyGEnc.

arxiv情報

著者 Sergey Linok,Vadim Semenov,Anastasia Trunova,Oleg Bulichev,Dmitry Yudin
発行日 2025-05-06 14:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes はコメントを受け付けていません

Towards A Robust Group-level Emotion Recognition via Uncertainty-Aware Learning

要約

グループレベルの感情認識(GER)は、人間の行動分析の分離不可能な部分であり、複数人のシーンで全体的な感情を認識することを目指しています。
ただし、既存の方法は、グループ内で発生するうっ血や閉塞など、制約のない環境での固有の不確実性を無視しながら、多様な感情の手がかりを結合することに専念しています。
さらに、グループレベルのラベルのみが利用可能であるため、1つのグループの個人間の一貫性のない感情予測は、ネットワークを混乱させることができます。
この論文では、GERのより堅牢な表現を抽出するための不確実性認識学習(UAL)方法を提案します。
各個人の不確実性を明示的にモデル化することにより、決定論的な点埋め込みではなく、ガウス分布から描かれた確率的埋め込みを利用します。
この表現は、さまざまな感情の確率をキャプチャし、推論段階でのこの確率性を通じて多様な予測を生成します。
さらに、不確実性に敏感なスコアは、各グループ内の個人の顔の融合重量として適応的に割り当てられます。
さらに、イメージ強化モジュールを開発して、重度のノイズに対するモデルの堅牢性を高めます。
顔、オブジェクト、およびシーンコンポーネントを含む全体的な3ブランチモデルは、比例した加重融合戦略に導かれ、提案された不確実性対応方法を統合して最終的なグループレベルの出力を生成します。
実験結果は、3つの広く使用されているデータベースにわたるメソッドの有効性と一般化能力を示しています。

要約(オリジナル)

Group-level emotion recognition (GER) is an inseparable part of human behavior analysis, aiming to recognize an overall emotion in a multi-person scene. However, the existing methods are devoted to combing diverse emotion cues while ignoring the inherent uncertainties under unconstrained environments, such as congestion and occlusion occurring within a group. Additionally, since only group-level labels are available, inconsistent emotion predictions among individuals in one group can confuse the network. In this paper, we propose an uncertainty-aware learning (UAL) method to extract more robust representations for GER. By explicitly modeling the uncertainty of each individual, we utilize stochastic embedding drawn from a Gaussian distribution instead of deterministic point embedding. This representation captures the probabilities of different emotions and generates diverse predictions through this stochasticity during the inference stage. Furthermore, uncertainty-sensitive scores are adaptively assigned as the fusion weights of individuals’ face within each group. Moreover, we develop an image enhancement module to enhance the model’s robustness against severe noise. The overall three-branch model, encompassing face, object, and scene component, is guided by a proportional-weighted fusion strategy and integrates the proposed uncertainty-aware method to produce the final group-level output. Experimental results demonstrate the effectiveness and generalization ability of our method across three widely used databases.

arxiv情報

著者 Qing Zhu,Qirong Mao,Jialin Zhang,Xiaohua Huang,Wenming Zheng
発行日 2025-05-06 14:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards A Robust Group-level Emotion Recognition via Uncertainty-Aware Learning はコメントを受け付けていません

Heart Failure Prediction using Modal Decomposition and Masked Autoencoders for Scarce Echocardiography Databases

要約

心臓病は、国際的な人間の障害の主な原因を構成します。
世界保健機関(WHO)によると、心臓病の正確な病気のために毎年約1,800万人の死亡が発生しています。
特に、心臓の失敗(HF)は、ヘルスケア業界を押して、早期、迅速、効果的な予測のためのシステムを開発します。
この作業は、心不全の時間予測の挑戦的で具体的なタスクのためにリアルタイム心エコー検査ビデオシーケンスで分析する新しいディープラーニングフレームワークに基づいた自動システムを提示します。
このシステムは2つの段階で動作します。
最初のものは、データを心エコー造影ビデオシーケンスのデータベースから、深い学習ベースのフレームワークのトレーニングフェーズで使用できる注釈付き画像の機械学習互換コレクションに変換します。
この段階には、データ増強と特徴抽出の両方に高次の動的モード分解(HODMD)アルゴリズムの使用が含まれます。
第2段階は、ビジョントランス(VIT)を構築およびトレーニングします。
心不全の予測に関する文献では、これまでのところかろうじて調査されている自己教師の学習(SSL)方法は、希少なデータベースでさえ、ゼロからVITを効果的に訓練するために採用されています。
設計されたニューラルネットワークは、心エコー造影シーケンスの画像を分析して、心不全が発生する時間を推定します。
得られた結果は、HODMDアルゴリズムの有効性と、いくつかの確立されたVITおよび畳み込みニューラルネットワーク(CNN)アーキテクチャに関する提案システムの優位性を示しています。
ソースコードは、modelflows-appソフトウェア(https://github.com/modelflows/modelflows-app)の次のバージョンリリースに組み込まれます。

要約(オリジナル)

Heart diseases constitute the main cause of international human defunction. According to the World Health Organization (WHO), approximately 18 million deaths happen each year due to precisely heart diseases. In particular, heart failures (HF) press the healthcare industry to develop systems for their early, rapid, and effective prediction. This work presents an automatic system based on a novel deep learning framework which analyses in real-time echocardiography video sequences for the challenging and more specific task of heart failure time prediction. This system works in two stages. The first one transforms the data from a database of echocardiography video sequences into a machine learning-compatible collection of annotated images which can be used in the training phase of any machine learning-based framework, including a deep learning-based one. This stage includes the use of the Higher Order Dynamic Mode Decomposition (HODMD) algorithm for both data augmentation and feature extraction. The second stage builds and trains a Vision Transformer (ViT). Self-supervised learning (SSL) methods, so far barely explored in the literature about heart failure prediction, are adopted to effectively train the ViT from scratch, even with scarce databases. The designed neural network analyses images from echocardiography sequences to estimate the time in which a heart failure will happen. The results obtained show the efficacy of the HODMD algorithm and the superiority of the proposed system with respect to several established ViT and Convolutional Neural Network (CNN) architectures. The source code will be incorporated into the next version release of the ModelFLOWs-app software (https://github.com/modelflows/ModelFLOWs-app).

arxiv情報

著者 Andrés Bell-Navas,María Villalba-Orero,Enrique Lara-Pezzi,Jesús Garicano-Mena,Soledad Le Clainche
発行日 2025-05-06 14:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H35, 68T07, 68T10, 68T45, cs.CV, eess.IV, I.2 | Heart Failure Prediction using Modal Decomposition and Masked Autoencoders for Scarce Echocardiography Databases はコメントを受け付けていません